인공지능/공부

모두를 위한 머신러닝 9주차 퀴즈

이게될까 2024. 5. 2. 01:06
728x90
728x90

1. 머신러닝 진단 테스트에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.

하나 이상을 선택하세요.

1. 머신러닝 진단 테스트는 학습 알고리즘의 성능을 향상시키기 위해서 어떤 방법들이 효과적인지 알려준다.
2. 예측함수를 평가하기 위해 우리는 데이터를 두 부분으로 나누는데, 약 50%는 학습용이고 50%는 테스트용이다.
3. 로지스틱 회귀에서는 오분류 비율을 테스트 셋 오차의 대안으로 사용할 수 있다.

2번 테스트 왜이리 많아. 3번은 뭔 말이지....?

선택해야 할 올바른 진술은 다음과 같습니다:

  1. "머신러닝 진단 테스트는 학습 알고리즘의 성능을 향상시키기 위해서 어떤 방법들이 효과적인지 알려준다."
    • 이 설명은 올바릅니다. 머신러닝 진단 테스트는 모델의 성능을 평가하고, 그 결과를 바탕으로 어떤 변경사항이 모델을 개선할 수 있는지 판단하는 데 도움을 줍니다. 예를 들어, 언더피팅이나 오버피팅 문제를 진단하고, 적절한 피처 선택, 알고리즘 선택, 하이퍼파라미터 조정 등의 방향을 제시합니다.
  2. "로지스틱 회귀에서는 오분류 비율을 테스트 셋 오차의 대안으로 사용할 수 있다."
    • 이 진술도 올바릅니다. 로지스틱 회귀 모델의 경우, 오분류 비율(misclassification rate)은 모델의 성능을 평가하는 데 사용되는 흔한 지표입니다. 이는 모델이 얼마나 잘 또는 못하고 있는지를 보여주는 실질적인 방법으로, 테스트 데이터에서 잘못 분류된 샘플의 비율을 측정합니다.

다음 진술은 잘못되었습니다:

  • "예측함수를 평가하기 위해 우리는 데이터를 두 부분으로 나누는데, 약 50%는 학습용이고 50%는 테스트용이다."
    • 이 설명은 일반적으로 적절하지 않습니다. 데이터를 분할할 때 일반적으로 사용되는 비율은 훈련 데이터가 70%에서 80%, 테스트 데이터가 20%에서 30%입니다. 물론 프로젝트의 특성이나 데이터의 양에 따라 이 비율은 다를 수 있지만, 50/50 분할은 흔하지 않습니다. 또한, 모델을 더 잘 일반화하고 과적합을 피하기 위해 검증 세트를 추가로 사용하는 경우도 많습니다.

오..... 영어 단어로만 듣다가 한글로 보니까 완전히...

1. 머신러닝 진단 테스트는 어떤 방법을 사용하면 학습 알고리즘의 성능을 향상시킬 수 있는지 알려줌

2. 예측함수를 평가하기 위해 데이터를 두 부분으로 나눌 때, 보통 70%의 데이터는 학습용으로, 30%의 데이터는 테스트용으로 사용함

3. 로지스틱 회귀는 데이터의 분류 문제에 적용하므로, 테스트 오차 대신 오분류 비율(misclassification rate)을 사용할 수 있음

The correct answers are: 머신러닝 진단 테스트는 학습 알고리즘의 성능을 향상시키기 위해서 어떤 방법들이 효과적인지 알려준다., 로지스틱 회귀에서는 오분류 비율을 테스트 셋 오차의 대안으로 사용할 수 있다.

2. 모델 선택에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.

하나 이상을 선택하세요.

1. 모델 선택이란 새로운 데이터에 대해 일반화할 수 있는 가장 좋은 모델을 선택하는 문제이다.

2. 모델 선택이란 학습 오차가 가장 작은 최적의 모델을 선택하는 문제이다.

3. 검증 데이터 셋을 사용하여 모델을 선택하고, 테스트 셋을 이용하여 모델의 성능을 평가한다.

4. 테스트 데이터 셋을 사용하여 최적의 모델을 선택하고, 검증 데이터 셋을 이용하여 모델의 성능을 평가할 수 있다.

 

2. 학습 오차가 적어도 오버피팅이면 쓰레기 모델! 4번은 거꾸로 되었잖어

올바른 진술을 선택하려면, 모델 선택에 관한 정의와 일반적인 데이터 분할 방법에 대한 이해가 필요합니다. 여기서 올바른 설명은 다음과 같습니다:

  1. "모델 선택이란 새로운 데이터에 대해 일반화할 수 있는 가장 좋은 모델을 선택하는 문제이다."
    • 이 진술은 정확합니다. 모델 선택의 핵심 목적은 새로운, 보지 못한 데이터에 대해 잘 일반화할 수 있는 모델을 찾는 것입니다. 이는 모델의 학습 오차뿐만 아니라 일반화 오차를 고려하여 이루어져야 합니다.
  2. "검증 데이터 셋을 사용하여 모델을 선택하고, 테스트 셋을 이용하여 모델의 성능을 평가한다."
    • 이 진술도 정확합니다. 일반적인 머신러닝 워크플로우에서 검증 데이터셋은 여러 모델 또는 하이퍼파라미터 설정 사이에서 최적의 선택을 돕는데 사용됩니다. 한편, 테스트 데이터셋은 최종 선택된 모델의 성능을 독립적으로 평가하는 데 사용됩니다. 이렇게 분리하는 이유는 검증 과정에서 발생할 수 있는 정보의 누출을 방지하고, 모델이 실제로 새로운 데이터에 얼마나 잘 작동하는지를 더 정확하게 평가하기 위함입니다.

다음 진술들은 잘못되었습니다:

  • "모델 선택이란 학습 오차가 가장 작은 최적의 모델을 선택하는 문제이다."
    • 이 설명은 부정확합니다. 단순히 학습 오차가 가장 낮은 모델을 선택하는 것은 과적합을 초래할 수 있으며, 모델의 일반화 능력을 고려하지 않는다는 점에서 적합하지 않습니다. 학습 데이터에 대한 낮은 오차가 새로운 데이터에 대한 좋은 성능을 보장하지 않기 때문입니다.
  • "테스트 데이터 셋을 사용하여 최적의 모델을 선택하고, 검증 데이터 셋을 이용하여 모델의 성능을 평가할 수 있다."
    • 이 설명도 잘못되었습니다. 테스트 데이터셋은 모델 선택 과정에서 사용되어서는 안 됩니다. 테스트 데이터셋은 모든 모델 선택과 튜닝이 완료된 후에, 최종적으로 선택된 모델의 성능을 독립적으로 평가하기 위한 목적으로 사용됩니다. 검증 데이터셋은 모델 선택 과정 중에 사용됩니다.

1. 학습 데이터로 학습시킨 모델들 중에서 새로운 데이터에 대해서 가장 좋은 성능을 보이는 모델을 선택하는 것을 모델 선택 이라고 함

2. 모델 선택은 교차 검증(cross-validation) 데이터 셋을 사용하여 하고, 모델의 평가는 테스트 데이터 셋을 이용하여 함

3. 모델 선택은 교차 검증(cross-validation) 데이터 셋을 사용하여 하고, 모델의 평가는 테스트 데이터 셋을 이용하여 함

The correct answers are: 모델 선택이란 새로운 데이터에 대해 일반화할 수 있는 가장 좋은 모델을 선택하는 문제이다., 검증 데이터 셋을 사용하여 모델을 선택하고, 테스트 셋을 이용하여 모델의 성능을 평가한다.

2024.05.01 - [인공지능/공부] - 머신러닝 9주차 2차시 - 최적 모델의 선택(데이터 셋 나누기)

 

머신러닝 9주차 2차시 - 최적 모델의 선택(데이터 셋 나누기)

다항식의 차수는 얼마나 할까? 특징값은 얼마나 포함할까?정규화 파라미터는 어떻게 선택할까?학습, 검증, 테스트 데이터로 나누기!예측 함수가 새로운 데이터에서도 잘 작동한다고 보장할 수

yoonschallenge.tistory.com

 

 

728x90