인공지능/공부

모두를 위한 머신러닝 13주차 퀴즈

이게될까 2024. 5. 27. 16:15
728x90
728x90
PCA에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
PCA는 데이터를 투영하고자 하는 저차원 평면을 찾는다.
PCA에서는 평균 정규화가 필요하지만 특징값 스케일링은 필요하지 않다.
좋은 PCA 투영은 데이터와 그것의 투영 사이의 거리를 최소화하는 것이다.

PCA는 저차원 평면을 찾고, 거리를 최소화하며 특징값 스케일링도 필요하죠!

PCA (Principal Component Analysis)에 관한 설명 중 올바른 것을 고르시오:

  1. PCA는 데이터를 투영하고자 하는 저차원 평면을 찾는다.
    • 올바른 설명입니다. PCA는 데이터를 가장 잘 설명할 수 있는 저차원 평면(또는 하이퍼플레인)을 찾는 방법입니다. 이 평면은 데이터의 분산을 최대화하는 방향들로 정의됩니다.
  2. PCA에서는 평균 정규화가 필요하지만 특징값 스케일링은 필요하지 않다.
    • 잘못된 설명입니다. PCA에서는 평균 정규화(데이터의 평균을 0으로 맞추는 것)뿐만 아니라, 특징값 스케일링(데이터의 분산을 동일하게 만드는 것)도 중요합니다. 이는 각 특징의 단위가 다를 경우, 큰 값의 특징이 주성분에 더 큰 영향을 미치는 것을 방지하기 위함입니다.
  3. 좋은 PCA 투영은 데이터와 그것의 투영 사이의 거리를 최소화하는 것이다.
    • 잘못된 설명입니다. 좋은 PCA 투영은 데이터와 투영 사이의 거리를 최소화하는 것이 아니라, 데이터의 분산을 최대화하는 방향을 찾는 것입니다. 이를 통해 데이터의 주요 변동을 가장 잘 설명할 수 있는 축을 선택하게 됩니다.

따라서 올바른 설명은 첫 번째 문장입니다.

오 GPT는 3번 틀렸다고 하네요?

PCA는 데이터를 낮은 차원의 평면으로 투영할 때, 데이터를 가장 적절하게 표현할 수 있는 투영 방향을 찾는 알고리즘 임.

PCA에서는 데이터의 평균 정규화와 특징값 스케일링 과정이 모두 필요함

좋은 PCA 투영이란, 데이터와 그것의 투영(projection) 사이의 거리를 최소화 하는 것임

The correct answers are: PCA는 데이터를 투영하고자 하는 저차원 평면을 찾는다., 좋은 PCA 투영은 데이터와 그것의 투영 사이의 거리를 최소화하는 것이다.

 

 

PCA에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 비율을 이용하여 결정할 수 있다.
주 성분의 개수는 1부터 시작하여 조건을 만족할 때까지 차례로 증가시켜 나가면서 결정할 수 있다.
주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하여 결정할 수 있다.

3개 다 맞는거 같은디 ?

PCA (Principal Component Analysis)에 관한 설명 중 올바른 것을 고르시오:

  1. 주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 비율을 이용하여 결정할 수 있다.
    • 올바른 설명입니다. 주 성분의 개수를 결정할 때 데이터의 평균 제곱 투영 오차 (Mean Squared Projection Error, MSPE)와 데이터의 전체 분산의 비율을 이용하는 방법이 사용됩니다. 일반적으로 누적 분산 설명 비율 (cumulative explained variance ratio)을 기준으로 주 성분의 개수를 결정합니다.
  2. 주 성분의 개수는 1부터 시작하여 조건을 만족할 때까지 차례로 증가시켜 나가면서 결정할 수 있다.
    • 올바른 설명입니다. 주 성분의 개수는 일반적으로 1부터 시작하여 누적 분산 설명 비율이 일정 임계값(예: 90% 또는 95%)에 도달할 때까지 차례로 증가시켜 나가면서 결정할 수 있습니다.
  3. 주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하여 결정할 수 있다.
    • 잘못된 설명입니다. PCA에서 주 성분의 개수를 결정하는 방법은 보통 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 비율을 이용하지, 합을 최소화하여 결정하지 않습니다. 일반적으로 분산을 최대화하는 방향을 선택하여 주 성분을 결정합니다.

따라서 올바른 설명은 첫 번째와 두 번째 문장입니다.

오... 3번이... 

3번 문장에 대해 더 설명하겠습니다:

잘못된 설명: "주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하여 결정할 수 있다."

이유: PCA의 목적은 데이터의 차원을 축소하면서 원래 데이터의 분산을 최대한 유지하는 것입니다. PCA는 데이터의 주 성분을 찾을 때, 데이터의 분산을 최대화하는 방향을 선택하여 주 성분을 결정합니다. 이 과정에서 주 성분의 개수를 결정하는 방법은 주로 데이터의 분산을 설명하는 비율을 기준으로 합니다.

구체적인 이유 설명:

  1. 분산의 최대화: PCA는 데이터를 가장 잘 설명할 수 있는 저차원 공간을 찾기 위해, 데이터의 분산을 최대화하는 방향(주 성분)을 찾습니다. 첫 번째 주 성분은 가장 큰 분산을 가지는 방향이고, 두 번째 주 성분은 첫 번째 주 성분에 직교하면서 그 다음으로 큰 분산을 가지는 방향입니다. 이러한 방식으로 주 성분을 차례로 선택합니다.
  2. 누적 분산 설명 비율: 주 성분의 개수를 결정하는 방법 중 하나는 누적 분산 설명 비율(cumulative explained variance ratio)을 사용하는 것입니다. 예를 들어, 전체 데이터 분산의 90% 또는 95%를 설명할 수 있는 주 성분의 개수를 선택합니다. 이는 주 성분의 개수를 증가시키면서 각 주 성분이 설명하는 분산의 비율을 누적하여 계산하고, 원하는 설명 비율에 도달할 때까지 주 성분의 개수를 늘리는 방식입니다.
  3. 평균 제곱 투영 오차(MSPE): PCA의 또 다른 관점은 주 성분으로 데이터를 재구성했을 때 원래 데이터와의 평균 제곱 투영 오차를 최소화하는 것입니다. 이는 원래 데이터와 주 성분으로 재구성한 데이터 사이의 차이를 최소화하는 방향을 찾는 것과 관련이 있습니다. 그러나 이 과정 역시 분산을 최대화하는 방향과 일치합니다.
  4. 잘못된 부분: 설명에서 "평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화"한다고 했지만, 이는 정확하지 않습니다. PCA는 분산을 최대화하는 방향으로 주 성분을 선택하며, 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하는 것이 아닙니다. 정확한 방법은 주 성분의 개수를 늘려가면서 원하는 분산 설명 비율에 도달할 때까지 주 성분을 선택하는 것입니다.

따라서 3번 문장은 잘못된 설명입니다. PCA에서는 데이터의 분산을 최대화하고, 주 성분의 개수를 결정할 때는 누적 분산 설명 비율을 기준으로 합니다. 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하는 방식은 PCA의 주 성분 개수 결정 방법을 올바르게 설명하지 않습니다.

데이터 분산을 일정한 값으로 유지하면 Principal Component의 수를 결정할 수 있음.

주 성분의 수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하여 결정함.

The correct answers are: 주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 비율을 이용하여 결정할 수 있다., 주 성분의 개수는 1부터 시작하여 조건을 만족할 때까지 차례로 증가시켜 나가면서 결정할 수 있다.
728x90