인공지능/공부

모두를 위한 머신러닝 퀴즈, 중간고사, 기말고사 모아보기

이게될까 2024. 6. 14. 19:50
728x90
728x90

다음 중에서 지도 학습 알고리즘을 가장 적절하게 사용할 수 있는 응용 예는 무엇인가?
하나를 선택하세요.

1. 어떤 소비자가 구매한 물품에 대한 기록을 이용하여, 그 소비자가 함께 구매할 가능성이 높은 물품들에 대한 패턴을 발견하고자 함
2. 어느 회사의 최근 5년간 주식 가격 데이터를 이용하여 내년 특정한 시기에 그 주식의 가격이 얼마가 될지 예측하고자 함 정

 


피드백
지도 학습이란 정답이 주어진 학습데이터를 이용하여 컴퓨터가 주어진 입력에 대한 올바른 결과를 예측하도록 학습하는 과정입니다.
과거 데이터를 학습하여 미래의 값을 예측하는 문제는 지도 학습 알고리즘을 효과적으로 사용할 수 있는 응용문제 중 하나 입니다.

정답 : 어느 회사의 최근 5년간 주식 가격 데이터를 이용하여 내년 특정한 시기에 그 주식의 가격이 얼마가 될지 예측하고자 함

 

다음 중에서 비지도 학습 알고리즘을 가장 적절하게 사용할 수 있는 응용 예는 무엇인가?
하나를 선택하세요.

1. 사과의 품질을 보통, 우수, 최우수로 등급을 매겨 출하하는 어느 농장에서 금년에 생산된 사과의 품질을 자동적으로 부여하고자 함
2. 최근 10년간 어느 학술지에 발표된 논문들 중에서 유사한 주제에 관한 논문들을 같은 그룹으로 목록을 만들고자 함 정답

피드백
비지도 학습이란 데이터의 유사도를 기반으로 정답이 주어지지 않은 학습데이터를 유사한 데이터 클러스터로 학습하는 과정입니다.
데이터들의 특성에 기초하여 유사한 데이터들을 그룹으로 묶는 것은 비지도 학습을 효과적으로 사용할 수 있는 응용문제 중 하나 입니다.

정답 : 최근 10년간 어느 학술지에 발표된 논문들 중에서 유사한 주제에 관한 논문들을 같은 그룹으로 목록을 만들고자 함

 

아래 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“선형 회귀는 주어진 데이터 𝑥에 대한 예측 함수 𝑦=ℎ(𝑥)가 (________)이며, 데이터에 예측 함수를 적합시키는 (________) 학습 알고리즘이다.”

하나를 선택하세요.
직선, 지도
직선, 비지도
곡선, 지도
곡선, 비지도

선형이므로 직선이고, 라벨이 붙어있는 즉 정답이 있는 지도학습입니당.

선형회귀는 예측함수가 y = w0 + w1 x의 형식이므로, 함수의 모양이 "직선" 이며, 선형회귀에서 사용하는 학습 데이터는 (입력,출력)의 형식으로 되어 있으므로 "지도학습" 알고리즘입니다.
정답 : 직선, 지도

 

비용 함수에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.

1. 비용 함수는 회귀 모델의 성능을 계산하므로, 이것을 최대화하여야 한다.
2. 비용 함수는 회귀 모델의 속도를 계산하므로, 이것을 최대화하여야 한다.
3. 비용 함수는 회귀 모델의 비용을 계산하므로, 이것을 최소화하여야 한다.
4. 비용 함수는 회귀 모델의 오차를 계산하므로, 이것을 최소화하여야 한다.

일단 최소화 시켜야 합니다! 그러니 1,2번은 나가리

3,4 번이 맞는 것 같네요

비용 함수는 회귀 모델의 오차를 나타내므로, 이것을 최소화하여야 합니다.
정답 : 비용 함수는 회귀 모델의 오차를 계산하므로, 이것을 최소화하여야 한다.

음...?

4번만 정답이라네요....?

 

1. 다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“특징 값이 2개인 경우 선형 회귀는 _____에 피팅되며, 예측 함수는 _____ 공간에서 표현될 수 있다.”

하나를 선택하세요.
직선, 2차원
직선, 3차원
평면, 2차원
평면, 3차원

 

특징 값이 2개면 bias까지 합쳐서 3평면에 3차원이다!

 

정답은 "평면, 3차원"입니다.

설명: 특징 값이 2개인 경우, 선형 회귀 모델은 두 개의 독립 변수를 기반으로 하므로, 이를 그래픽으로 표현할 때는 3차원 공간에서의 평면으로 나타납니다. 두 독립 변수(x축과 y축)와 종속 변수(z축) 사이의 관계를 3차원 공간에서 평면으로 표현할 수 있습니다. 따라서 예측 함수는 3차원 공간에서 평면으로 표현됩니다.

 

특징 값이 2개인 경우 선형 회귀는 평면에 피팅되며, 예측 함수는 3차원 공간에서 표현될 수 있습니다.
정답 : 평면, 3차원

 

2. 다음 문장에서 빈칸에 들어갈 가장 적절한 내용을 고르시오.

“특징 값이 N개인 경우 선형 회귀의 파라미터의 개수는 _____개 이다.”

하나를 선택하세요.
N-1
N
N+1
1

 

음 이것도 bias까지 합쳐서 N+1개 !

정답은 "N+1"입니다.

설명: 선형 회귀에서 특징 값이 N개일 경우, 각 특징 값에 대한 가중치(파라미터)가 필요하고, 추가로 절편(bias) 값 하나가 필요합니다. 따라서 총 파라미터의 개수는 N개의 특징 값에 대한 가중치와 1개의 절편을 합한 N+1개입니다.

특징 값이 N개인 경우 선형 회귀의 파라미터의 개수는 특징 값의 갯수보다 하나 많으므로, N+1개 입니다.
정답 : N+1

 

 


1. 다음 중 이진 분류 문제에 해당하는 것은 무엇인가?
하나를 선택하세요.
1. 어느 고객의 취향에 가장 잘 맞는 S전자 회사의 스마트폰 모델을 추천하기
2. 어느 고객이 S전자 회사의 스마트폰을 구입할 것인지 아닌지 예측하기
3. 1개월 후 S전자 회사의 주가를 예측하기

정답은 2! 애초에 나머지들은 선택지가 2개인 것도 아니야....

이진 분류 문제는 두 개의 클래스 중 하나로 분류하는 문제를 말합니다. 주어진 옵션 중에서 "어느 고객이 S전자 회사의 스마트폰을 구입할 것인지 아닌지 예측하기"는 고객이 스마트폰을 구입할지 아닐지, 즉 '구입'과 '구입하지 않음'의 두 가지 클래스 중 하나로 분류하는 문제입니다. 따라서 이는 이진 분류 문제에 해당합니다.

정답: 어느 고객이 S전자 회사의 스마트폰을 구입할 것인지 아닌지 예측하기

이진 분류란 그렇다 / 아니다 2개의 결과로 분류하는 것입니다. 
정답 : 어느 고객이 S전자 회사의 스마트폰을 구입할 것인지 아닌지 예측하기
 
2. 다음 문장의 빈 칸에 들어갈 가장 적절한 단어를 고르시오.
로지스틱 (Logistic) 함수는 _____________함수 라고도 한다.
하나를 선택하세요.
선형
예측
시그모이드
회귀

시그모이드!

로지스틱 함수는 시그모이드(sigmoid) 함수라고도 합니다. 이 함수는 S자 형태의 곡선을 그리며, 주로 이진 분류 문제에서 확률을 예측하는 데 사용됩니다. 값의 범위는 0과 1 사이이며, 이 특성 덕분에 분류 문제에 잘 적용됩니다.

정답: 시그모이드

로지스틱 (Logistic) 함수는 시그모이드 (sigmoid) 함수 라고도 합니다.
정답 : 시그모이드

 


1. 정규화(Regularization)에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
1 데이터를 그려 보는 것은 과적합의 유무를 판단하는 데 도움이 된다.
2 특징 값의 수를 증가시키면 과적합을 줄일 수 있다.
3 정규화는 파라미터 값의 크기를 줄여 과적합 문제를 예방할 수 있다.
4 정규화는 파라미터의 개수를 줄여 과적합 문제를 예방할 수 있다.

3번은 맞고.... 흠....  문제를 ..... 진짜...... 4번도 사실 맞는 말이고, 특징 값이 뭔데 특징 값이 람다면 과적합을 줄이고, 파라미터면 과적합을 늘릴텐데... 1번도 사실 맞는거고.... 2번 특징값이 파라미터라고 생각하면 2ㅓㅂㄴ만 틀린것 같네요

 

정규화(Regularization)에 관한 올바른 설명을 고르기 위해서 각 명제를 분석해야 합니다:

데이터를 그려 보는 것은 과적합의 유무를 판단하는 데 도움이 된다.

이 명제는 과적합의 직접적인 판단 기준으로 사용되지 않습니다. 데이터를 시각화하는 것은 데이터의 분포, 이상치, 패턴 등을 이해하는 데 도움이 될 수 있으나, 과적합의 유무를 직접적으로 판단하기 위한 명확한 방법은 아닙니다.
특징 값의 수를 증가시키면 과적합을 줄일 수 있다.

실제로는 특징 값(특성의 수)을 무분별하게 증가시키는 것이 과적합을 유발할 수 있습니다. 모델이 훈련 데이터에 너무 맞추어져 일반화 능력이 떨어질 수 있기 때문입니다.
정규화는 파라미터 값의 크기를 줄여 과적합 문제를 예방할 수 있다.

이 명제는 올바릅니다. 정규화(L1, L2 정규화 등)는 모델의 파라미터 값의 크기를 제한함으로써 모델이 훈련 데이터에 과도하게 맞추어지는 것을 방지하고, 일반화 성능을 향상시키는 데 도움을 줍니다.
정규화는 파라미터의 개수를 줄여 과적합 문제를 예방할 수 있다.

정규화는 파라미터의 개수를 직접적으로 줄이지는 않습니다. 대신 파라미터 값의 크기를 제한하여 과적합을 예방합니다. 파라미터의 개수를 줄이는 것은 특성 선택(feature selection)이나 모델의 구조를 단순화하는 것과 관련이 있습니다.
따라서, 올바른 답변은 정규화는 파라미터 값의 크기를 줄여 과적합 문제를 예방할 수 있다 입니다.

입출력 데이터를 그래프로 그려보면, 회귀곡선이 데이터의 분포를 적절하게 따라가고 있는지, 아니면 너무 단순하거나 복잡한지 알수 있으므로 과적합의 유무를 판단하는데 도움이 됩니다. 정규화는 파라미터 값의 크기가 지나치게 커지는 것을 방지하므로 과적합이 발생하지 않도록 합니다.
The correct answers are: 데이터를 그려 보는 것은 과적합의 유무를 판단하는 데 도움이 된다., 정규화는 파라미터 값의 크기를 줄여 과적합 문제를 예방할 수 있다.
2. 정규화 파라미터에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
1 정규화 파라미터의 값이 아주 크면, 선형 회귀의 예측함수가 수평이 될 수 있다.
2 정규화 파라미터의 값이 아주 크면, 선형 회귀의 예측 함수가 감소할 수 있다.
3 정규화 파라미터의 값이 아주 작으면, 과적합 문제가 발생할 수 있다.
4 정규화 파라미터의 값이 아주 크면, 과적합 문제가 발생할 수 있다.

1번 수평이 되겠죠. 2 읭 증가 아녀유? 3 아주 크면 언더 피팅 ! 작으면 오버피팅 가능! 

즉 1,2,3

정규화 파라미터(예: 릿지(Ridge) 회귀의 λ 또는 라쏘(Lasso) 회귀의 α)는 모델의 복잡도에 페널티를 부과하여 과적합을 방지하는 역할을 합니다. 이에 대한 각 명제를 분석하면 다음과 같습니다:

정규화 파라미터의 값이 아주 크면, 선형 회귀의 예측함수가 수평이 될 수 있다.

이 명제는 올바릅니다. 정규화 파라미터의 값이 너무 크면 모델이 데이터에 거의 적합되지 않게 되어, 예측 함수가 데이터의 평균 수준(거의 수평)으로 되는 경향이 있습니다. 이는 특히 라쏘 회귀에서 명확하게 나타날 수 있습니다.

정규화 파라미터의 값이 아주 크면, 선형 회귀의 예측 함수가 감소할 수 있다.

이 명제는 모호하며 일반적인 상황을 정확히 반영하지 않습니다. "감소"라는 표현은 예측 함수의 기울기나 성능 감소를 의미할 수 있으나, 정규화 파라미터의 값이 큰 경우 주로 과적합을 방지하는 효과가 있으며, 예측 함수 자체가 "감소"하는 것은 아닙니다.

정규화 파라미터의 값이 아주 작으면, 과적합 문제가 발생할 수 있다.

이 명제는 올바릅니다. 정규화 파라미터의 값이 너무 작으면, 정규화 효과가 충분히 발생하지 않아 모델이 훈련 데이터에 과적합될 수 있습니다.
정규화 파라미터의 값이 아주 크면, 과적합 문제가 발생할 수 있다.

이 명제는 일반적으로 올바르지 않습니다. 정규화 파라미터의 값이 큰 경우 오히려 과적합을 방지하는 효과가 있으며, 모델이 훈련 데이터에 너무 적합되는 것을 막아줍니다. 다만, 너무 과도한 정규화는 모델이 데이터의 패턴을 충분히 학습하지 못하게 만들 수 있습니다.
따라서, 올바른 답변은 정규화 파라미터의 값이 아주 크면, 선형 회귀의 예측함수가 수평이 될 수 있다와 정규화 파라미터의 값이 아주 작으면, 과적합 문제가 발생할 수 있다 입니다.

정규화 파라미터의 값이 아주 크면, 선형 회귀의 직선이 수평이 될 수 있고, 정규화 파라미터의 값이 아주 작으면, 과적합 문제가 발생할 수 있습니다.
The correct answers are: 정규화 파라미터의 값이 아주 크면, 선형 회귀의 예측함수가 수평이 될 수 있다., 정규화 파라미터의 값이 아주 작으면, 과적합 문제가 발생할 수 있다.

 

1. 두뇌에 관한 다음 설명의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

"_____________를 통하여 새로운 지식을 습득할 수 있으며, 아주 복잡하고 대규모의 _____________ 문제들을 해결할 수 있다."
하나를 선택하세요.
학습, 선형
학습, 비선형
지식, 선형
지식, 비선형

학습 ! 비선형!


"학습을 통하여 새로운 지식을 습득할 수 있으며, 아주 복잡하고 대규모의 비선형 문제들을 해결할 수 있다."

따라서, 가장 적절한 답은 "학습, 비선형" 입니다.

이건 딱히 강의 자료에서 못 찾겠네요

학습을 통해 새로운 지식을 습득할 수 있고, 대규모의 매우 복잡한 비선형 문제를 해결할 수 있다.
정답 : 학습, 비선형
 
2.다음 문장의 빈칸에 들어갈 가장 적절한 단어들을 고르시오.

"다층 신경망(multilayer neural network)은 사람의_________를 모방한_______알고리즘이다."
하나를 선택하세요.
감각, 지도학습
감각, 비지도학습
두뇌, 지도학습
두뇌, 비지도학습
 

두뇌, 지도!

"다층 신경망(multilayer neural network)은 사람의 두뇌를 모방한 알고리즘이다."

다층 신경망은 사람의 두뇌를 모방하여 설계된 알고리즘입니다. 그러나 다층 신경망이 지도학습, 비지도학습, 강화학습 등 다양한 방식으로 학습될 수 있다는 점에서, 단순히 "지도학습" 또는 "비지도학습"으로 한정짓기는 어렵습니다. 그러나 기본적으로 다층 신경망을 설명할 때 가장 널리 알려진 개념은 그것이 '두뇌를 모방한' 것이라는 점이므로, 여기서는 "두뇌"가 더 적절한 선택이 됩니다. 

그러나 주어진 선택지 내에서는 "두뇌"를 포함하는 정확한 학습 유형을 지정하지 않습니다. 일반적으로 다층 신경망은 지도학습 방식을 사용하는 경우가 많지만, 비지도학습 방식으로도 운용될 수 있습니다. 따라서, 가장 포괄적인 설명을 위해 "두뇌"를 선택하는 것이 맞으며, 학습 유형에 대해서는 문맥에 따라 다를 수 있습니다. 

문제의 의도에 따라 정확한 답변을 선택해야 하며, 주어진 선택지와 설명을 기반으로 정확한 답변을 제시하기는 어렵습니다.

다층 신경망은 인간의 뇌를 모방한 감독 학습 알고리즘이다. 
정답 : 두뇌, 지도학습

이번 퀴즈는 좀 많이 애매해 보이네요...

 

1. 다음 설명의 빈 칸에 들어갈 가장 적절한 단어들을 고르시오.

“오차 역전파 학습 알고리즘은 forward pass와 backward propagation 두 단계로 수행된다. Forward pass 는 주어진 입력에 대한 네트워크의 (______)을(를) 계산하는 과정이며, backward propagation는 네트워크의 실제 출력과 원하는 출력 사이의 (_____)을(를) 이용하여 가중치를 업데이트한다.”

하나를 선택하세요.

가중치,오차

가중치,그래디언트

출력,오차

출력,그래디언트

forward는 예측치를 계산하는 즉 출력을 계산...? 가중치 계산도 맞지 않나,...? backpropagation은 오차를 이용하여 가중치를 업데이트하는건데.... 일단 출력과 오차가 맞겠네요

정답은 "출력, 오차"입니다.

  • Forward pass는 네트워크를 통해 입력 데이터가 전파되면서 최종적인 출력을 생성하는 과정입니다. 이 과정에서 네트워크의 각 레이어는 입력에 대한 가중치를 적용하고 활성화 함수를 통해 다음 레이어로 전달할 출력을 계산합니다. 따라서 첫 번째 빈칸에는 "출력"이 들어가야 맞습니다.
  • Backward propagation (오차 역전파)은 네트워크의 출력과 타깃(원하는 출력)과의 차이를 계산하여 오차를 구하고, 이 오차를 바탕으로 네트워크의 가중치를 업데이트하는 과정입니다. 이 오차를 계산하여 가중치 업데이트에 사용하기 때문에 두 번째 빈칸에는 "오차"가 들어갑니다.
forward pass 는 가중치의 현재 값을 사용하여 주어진 입력에 대한 네트워크 출력을 계산하는 것이고, Backward propagation는 네트워크의 실제 출력과 원하는 출력 사이의 error를 사용하여 가중치를 업데이트합니다.
정답 : 출력,오차
 

2. 다층 신경망에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.

하나 이상을 선택하세요.

다층신경망의 비용함수는 예측오차의 제곱의 함으로 정의될 수 있다.

네트워크의 오차는 중간층에서 계산될 수 있다.

데이터 분류를 위한 신경망에서 출력층의 뉴련의 개수는 보통 부류의 개수와 동일하다.

정의 될 '수'있으니까 1번 맞고
끝에서 부터 계산해야하니까 2번 아니고
2개 분류는 1개일 때도 있는데 저걸 맞다고 해야할지...?

 

정답은 다음과 같습니다:

  1. 다층신경망의 비용함수는 예측오차의 제곱의 합으로 정의될 수 있다.
  2. 데이터 분류를 위한 신경망에서 출력층의 뉴런의 개수는 보통 부류의 개수와 동일하다.

설명:

  • 다층신경망의 비용함수는 예측오차의 제곱의 합으로 정의될 수 있다. 이는 MSE(Mean Squared Error)라고 불리며, 회귀 문제에서 주로 사용되는 손실 함수입니다. 분류 문제에서는 교차 엔트로피 손실 함수를 더 자주 사용하지만, MSE도 기술적으로 사용할 수 있습니다.
  • 네트워크의 오차는 중간층에서 계산될 수 있다. 이 문장은 오류가 있습니다. 신경망에서 오차는 출력층에서 계산되고, 이 오차는 역전파 알고리즘을 통해 각 층에 전파되어 가중치를 조정합니다. 중간층에서는 직접 오차를 계산하지 않습니다.
  • 데이터 분류를 위한 신경망에서 출력층의 뉴런의 개수는 보통 부류의 개수와 동일하다. 이는 분류 작업에서 각 클래스 또는 카테고리에 해당하는 출력 뉴런이 있어야 하기 때문에 맞는 설명입니다. 각 뉴런은 특정 클래스에 대한 네트워크의 예측 확률을 출력합니다.

1.다층신경망의 비용 함수는 신경망의 실제 출력과 원하는 출력 사이의 오차를 이용하여 생성하므로 올바른 설명입니다.

2.신경망의 오차는 출력층에서만 계산될 수 있고, 은닉층에서는 계산될 수 없으므로 잘못된 설명입니다.

3.분류 문제에서는 일반적으로 주어진 입력에 대한 출력 층 뉴런의 활성값 중에서 가장 큰 뉴런에 해당하는 부류(class)로 결정하므로, 부류의 개수와 출력층 뉴런의 개수가 동일합니다.

The correct answers are: 다층신경망의 비용함수는 예측오차의 제곱의 함으로 정의될 수 있다., 데이터 분류를 위한 신경망에서 출력층의 뉴련의 개수는 보통 부류의 개수와 동일하다.

 

1. 머신러닝 기법을 사용하는 것이 적합하다고 생각되는 컴퓨터 응용분야의 예시 2가지를 고르시오.
하나 이상을 선택하세요.

문단의 주제를 나타내는 토픽 문장 추출하기

데이터베이스 관리하기

계산기 프로그램 작성하기

신청자의 신용상태를 고려하여 융자를 승인할 것인지 결정하기

계산기와 같은 프로그램은 그냥 프로그램으로 만든게 훨씬 빠르고 간편하다. 데이터 베이스 관리도 머신러닝이 하기엔.....

머신러닝 기법을 사용하는 것이 적합한 컴퓨터 응용분야의 예시로는 다음 두 가지를 선택할 수 있습니다:

  1. 문단의 주제를 나타내는 토픽 문장 추출하기 - 이 경우, 머신러닝은 다양한 텍스트 데이터에서 중요한 주제나 개념을 식별하고, 그와 관련된 핵심 문장을 추출하는 데 사용될 수 있습니다. 자연어 처리(Natural Language Processing, NLP) 기술은 문맥적 이해와 텍스트 내 정보의 중요도를 평가하여 주제 문장을 추출하는 데 매우 효과적입니다.
  2. 신청자의 신용상태를 고려하여 융자를 승인할 것인지 결정하기 - 이 영역에서 머신러닝은 신청자의 신용 기록, 과거 거래, 소득 수준 등 다양한 변수를 분석하여 융자 승인 가능성을 평가합니다. 이러한 분석을 통해 금융 기관은 위험을 관리하고, 융자 승인 결정을 자동화하는데 도움을 받을 수 있습니다.

데이터베이스 관리와 계산기 프로그램 작성은 일반적으로 머신러닝 기법보다는 정형화된 알고리즘과 절차적 프로그래밍에 의존하는 작업입니다. 따라서 머신러닝을 적용하기보다는 다른 기술적 접근이 더 적합할 수 있습니다.

두뇌에 관한 다음 설명의 빈칸에 들어갈 가장 적절한 단어들을 고르시오.

2. "_____________을 통하여 새로운 지식을 습득할 수 있으며, 아주 복잡하고 대규모의 _____________ 문제들을 해결할 수 있다."
하나를 선택하세요.

학습, 선형

학습, 비선형

지식, 선형

지식, 비선형

학습을 통해서 비선형 문제를 해결할 수 있지!

두뇌에 관한 설명의 빈칸을 채우는데 가장 적절한 단어들은 "학습"과 "비선형"입니다. 따라서 올바른 선택은 "학습, 비선형"입니다.

빈칸을 채우는 이유는 다음과 같습니다:

  1. "학습을 통하여 새로운 지식을 습득할 수 있으며" - 이 부분에서 '학습'은 두뇌가 새로운 정보를 받아들이고, 이해하며, 기억하는 과정을 의미합니다. '지식'을 사용하는 것은 문맥상 적합하지 않으며, '학습'이 새로운 정보를 받아들이는 과정을 더 정확히 표현합니다.
  2. "아주 복잡하고 대규모의 비선형 문제들을 해결할 수 있다." - 두뇌는 선형적인 문제뿐만 아니라, 더 복잡하고 예측하기 어려운 비선형 문제들을 해결하는 능력을 가지고 있습니다. '선형'보다는 '비선형'이 두뇌의 문제 해결 능력을 더 넓고 정확하게 표현합니다.

3. Underfitting과 관련된 단어를 2개 고르시오.
하나 이상을 선택하세요.

Low variance

High variance

High bias

Low bias

언더 피팅은 bias가 크고, weight학습이 덜 된 상태!

Underfitting과 관련된 단어는 "High bias"와 "Low variance"입니다. Underfitting은 모델이 데이터의 복잡성을 충분히 포착하지 못하고, 학습 데이터에도 잘 맞지 않을 때 발생합니다. 이런 경우, 모델은 단순화되어 너무 강한 가정을 하기 때문에 높은 편향성(high bias)을 가지며, 데이터 내의 변동성을 제대로 표현하지 못해 낮은 분산성(low variance)을 보입니다.

4. Overfitting과 관련된 단어를 2개 고르시오.
하나 이상을 선택하세요.

Low variance

High variance

High bias

Low bias

오버피팅은 weight가 너무 커지고 bias의 영향이 작아진 경우지!

Overfitting과 관련된 단어는 "High variance"와 "Low bias"입니다. Overfitting은 모델이 학습 데이터에 너무 잘 맞추어져 있어, 새로운 데이터나 테스트 데이터에는 잘 작동하지 않을 때 발생합니다. 이 경우, 모델은 학습 데이터의 무작위 노이즈까지 학습하게 되므로 높은 분산성(high variance)을 가지며, 학습 데이터에 대한 오류는 매우 낮기 때문에 낮은 편향성(low bias)을 보입니다.

다음 설명의 빈 칸에 들어갈 가장 적절한 단어들을 고르시오.

5. “오차 역전파 학습 알고리즘은 forward pass와 backward propagation 두 단계로 수행된다. Forward pass 는 주어진 입력에 대한 네트워크의 (______)을(를) 계산하는 과정이며, backward propagation는 네트워크의 실제 출력과 원하는 출력 사이의 (_____)을(를) 이용하여 가중치를 업데이트한다.”
하나를 선택하세요.

가중치, 오차

가중치, 그래디언트

출력, 오차

출력, 그래디언트

이거 나왔던 문제인거 같은데 출력 계산이었던거 같은데.... 그리고 오차를 통해 grident를 구해서 업데이트한다.

오차 역전파 학습 알고리즘에 관한 설명에서 적절한 단어들은 "출력, 그래디언트"입니다. 따라서 올바른 선택은 "출력, 그래디언트"입니다.

설명은 다음과 같이 이해할 수 있습니다:

  1. Forward pass는 주어진 입력에 대해 네트워크의 '출력'을 계산하는 과정입니다. 이 단계에서 네트워크는 입력 데이터를 받아 각 층의 노드를 통과하며 최종 출력을 생성합니다.
  2. Backward propagation는 네트워크의 실제 출력과 원하는 출력 사이의 '그래디언트'를 이용하여 네트워크의 가중치를 업데이트하는 과정입니다. 이 단계에서는 손실 함수로부터 그래디언트를 계산하고, 이를 사용해 각 가중치를 조정함으로써 학습이 진행됩니다.

따라서, 이 문맥에서 '가중치'나 '오차'는 적합하지 않습니다.

6. 다음 중 일괄(batch) 업데이트와 비교되는 순차(sequential) 업데이트를 설명하고 있는 문장들을 모두 고르시오.
하나 이상을 선택하세요.

국소적 저장공간을 덜 사용한다.

학습데이터 세트의 모든 데이터에 대해 가중치를 한번 업데이트한다.

계산량이 많다

구현하기가 쉽다

SGD는 한개씩 사용하니까 저장공간도 덜 사용하고, 구현하기 쉽겠쥬

순차(sequential) 업데이트, 종종 온라인 또는 스토캐스틱 업데이트라고도 불리는 방법을 설명하는 문장은 다음과 같습니다:

  1. 국소적 저장공간을 덜 사용한다. - 순차 업데이트 방식에서는 한 번에 하나의 데이터 포인트나 작은 데이터 그룹(미니 배치)만 메모리에 로드하여 처리합니다. 이로 인해 일괄(batch) 업데이트 방식에 비해 덜 많은 저장공간을 사용합니다.

다음의 문장들은 순차 업데이트에 해당하지 않습니다:

  • 학습 데이터 세트의 모든 데이터에 대해 가중치를 한 번 업데이트한다. - 이 문장은 일괄 업데이트 방식을 설명하는 것으로, 여기서는 전체 데이터 세트를 기반으로 한 번에 가중치를 업데이트합니다.
  • 계산량이 많다 - 일반적으로 계산량이 많은 것은 일괄 업데이트의 특성이며, 순차 업데이트는 각 업데이트에서 계산량이 상대적으로 적습니다.
  • 구현하기가 쉽다 - 이는 순차 업데이트와 일괄 업데이트 양쪽에 적용될 수 있지만, 일반적으로 구현의 용이성은 특정 상황과 기술적 선택에 따라 다를 수 있으므로, 이 문장은 순차 업데이트만을 명확하게 설명하지 않습니다.

따라서 올바른 선택은 "국소적 저장공간을 덜 사용한다." 입니다.

 

1. 머신러닝 진단 테스트에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.

하나 이상을 선택하세요.

1. 머신러닝 진단 테스트는 학습 알고리즘의 성능을 향상시키기 위해서 어떤 방법들이 효과적인지 알려준다.
2. 예측함수를 평가하기 위해 우리는 데이터를 두 부분으로 나누는데, 약 50%는 학습용이고 50%는 테스트용이다.
3. 로지스틱 회귀에서는 오분류 비율을 테스트 셋 오차의 대안으로 사용할 수 있다.

2번 테스트 왜이리 많아. 3번은 뭔 말이지....?

선택해야 할 올바른 진술은 다음과 같습니다:

  1. "머신러닝 진단 테스트는 학습 알고리즘의 성능을 향상시키기 위해서 어떤 방법들이 효과적인지 알려준다."
    • 이 설명은 올바릅니다. 머신러닝 진단 테스트는 모델의 성능을 평가하고, 그 결과를 바탕으로 어떤 변경사항이 모델을 개선할 수 있는지 판단하는 데 도움을 줍니다. 예를 들어, 언더피팅이나 오버피팅 문제를 진단하고, 적절한 피처 선택, 알고리즘 선택, 하이퍼파라미터 조정 등의 방향을 제시합니다.
  2. "로지스틱 회귀에서는 오분류 비율을 테스트 셋 오차의 대안으로 사용할 수 있다."
    • 이 진술도 올바릅니다. 로지스틱 회귀 모델의 경우, 오분류 비율(misclassification rate)은 모델의 성능을 평가하는 데 사용되는 흔한 지표입니다. 이는 모델이 얼마나 잘 또는 못하고 있는지를 보여주는 실질적인 방법으로, 테스트 데이터에서 잘못 분류된 샘플의 비율을 측정합니다.

다음 진술은 잘못되었습니다:

  • "예측함수를 평가하기 위해 우리는 데이터를 두 부분으로 나누는데, 약 50%는 학습용이고 50%는 테스트용이다."
    • 이 설명은 일반적으로 적절하지 않습니다. 데이터를 분할할 때 일반적으로 사용되는 비율은 훈련 데이터가 70%에서 80%, 테스트 데이터가 20%에서 30%입니다. 물론 프로젝트의 특성이나 데이터의 양에 따라 이 비율은 다를 수 있지만, 50/50 분할은 흔하지 않습니다. 또한, 모델을 더 잘 일반화하고 과적합을 피하기 위해 검증 세트를 추가로 사용하는 경우도 많습니다.

오..... 영어 단어로만 듣다가 한글로 보니까 완전히...

1. 머신러닝 진단 테스트는 어떤 방법을 사용하면 학습 알고리즘의 성능을 향상시킬 수 있는지 알려줌

2. 예측함수를 평가하기 위해 데이터를 두 부분으로 나눌 때, 보통 70%의 데이터는 학습용으로, 30%의 데이터는 테스트용으로 사용함

3. 로지스틱 회귀는 데이터의 분류 문제에 적용하므로, 테스트 오차 대신 오분류 비율(misclassification rate)을 사용할 수 있음

The correct answers are: 머신러닝 진단 테스트는 학습 알고리즘의 성능을 향상시키기 위해서 어떤 방법들이 효과적인지 알려준다., 로지스틱 회귀에서는 오분류 비율을 테스트 셋 오차의 대안으로 사용할 수 있다.

2. 모델 선택에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.

하나 이상을 선택하세요.

1. 모델 선택이란 새로운 데이터에 대해 일반화할 수 있는 가장 좋은 모델을 선택하는 문제이다.

2. 모델 선택이란 학습 오차가 가장 작은 최적의 모델을 선택하는 문제이다.

3. 검증 데이터 셋을 사용하여 모델을 선택하고, 테스트 셋을 이용하여 모델의 성능을 평가한다.

4. 테스트 데이터 셋을 사용하여 최적의 모델을 선택하고, 검증 데이터 셋을 이용하여 모델의 성능을 평가할 수 있다.

 

2. 학습 오차가 적어도 오버피팅이면 쓰레기 모델! 4번은 거꾸로 되었잖어

올바른 진술을 선택하려면, 모델 선택에 관한 정의와 일반적인 데이터 분할 방법에 대한 이해가 필요합니다. 여기서 올바른 설명은 다음과 같습니다:

  1. "모델 선택이란 새로운 데이터에 대해 일반화할 수 있는 가장 좋은 모델을 선택하는 문제이다."
    • 이 진술은 정확합니다. 모델 선택의 핵심 목적은 새로운, 보지 못한 데이터에 대해 잘 일반화할 수 있는 모델을 찾는 것입니다. 이는 모델의 학습 오차뿐만 아니라 일반화 오차를 고려하여 이루어져야 합니다.
  2. "검증 데이터 셋을 사용하여 모델을 선택하고, 테스트 셋을 이용하여 모델의 성능을 평가한다."
    • 이 진술도 정확합니다. 일반적인 머신러닝 워크플로우에서 검증 데이터셋은 여러 모델 또는 하이퍼파라미터 설정 사이에서 최적의 선택을 돕는데 사용됩니다. 한편, 테스트 데이터셋은 최종 선택된 모델의 성능을 독립적으로 평가하는 데 사용됩니다. 이렇게 분리하는 이유는 검증 과정에서 발생할 수 있는 정보의 누출을 방지하고, 모델이 실제로 새로운 데이터에 얼마나 잘 작동하는지를 더 정확하게 평가하기 위함입니다.

다음 진술들은 잘못되었습니다:

  • "모델 선택이란 학습 오차가 가장 작은 최적의 모델을 선택하는 문제이다."
    • 이 설명은 부정확합니다. 단순히 학습 오차가 가장 낮은 모델을 선택하는 것은 과적합을 초래할 수 있으며, 모델의 일반화 능력을 고려하지 않는다는 점에서 적합하지 않습니다. 학습 데이터에 대한 낮은 오차가 새로운 데이터에 대한 좋은 성능을 보장하지 않기 때문입니다.
  • "테스트 데이터 셋을 사용하여 최적의 모델을 선택하고, 검증 데이터 셋을 이용하여 모델의 성능을 평가할 수 있다."
    • 이 설명도 잘못되었습니다. 테스트 데이터셋은 모델 선택 과정에서 사용되어서는 안 됩니다. 테스트 데이터셋은 모든 모델 선택과 튜닝이 완료된 후에, 최종적으로 선택된 모델의 성능을 독립적으로 평가하기 위한 목적으로 사용됩니다. 검증 데이터셋은 모델 선택 과정 중에 사용됩니다.

1. 학습 데이터로 학습시킨 모델들 중에서 새로운 데이터에 대해서 가장 좋은 성능을 보이는 모델을 선택하는 것을 모델 선택 이라고 함

2. 모델 선택은 교차 검증(cross-validation) 데이터 셋을 사용하여 하고, 모델의 평가는 테스트 데이터 셋을 이용하여 함

3. 모델 선택은 교차 검증(cross-validation) 데이터 셋을 사용하여 하고, 모델의 평가는 테스트 데이터 셋을 이용하여 함

The correct answers are: 모델 선택이란 새로운 데이터에 대해 일반화할 수 있는 가장 좋은 모델을 선택하는 문제이다., 검증 데이터 셋을 사용하여 모델을 선택하고, 테스트 셋을 이용하여 모델의 성능을 평가한다.

2024.05.01 - [인공지능/공부] - 머신러닝 9주차 2차시 - 최적 모델의 선택(데이터 셋 나누기)

 

머신러닝 9주차 2차시 - 최적 모델의 선택(데이터 셋 나누기)

다항식의 차수는 얼마나 할까? 특징값은 얼마나 포함할까?정규화 파라미터는 어떻게 선택할까?학습, 검증, 테스트 데이터로 나누기!예측 함수가 새로운 데이터에서도 잘 작동한다고 보장할 수

yoonschallenge.tistory.com

 

다음 설명 중 머신러닝 시스템을 설계할 때 가장 먼저 고려하여야 할 사항은 무엇인가?
하나를 선택하세요.
샘플 데이터 수집하기
학습 알고리즘 개발하기
접근방식 선택하기 (지도학습 / 비지도학습)
특징 추출하기

데이터가 있어야 뭘 하든 말든 할 수 있으니까..... 1번

 

머신러닝 시스템을 설계할 때 가장 먼저 고려해야 할 사항은 **접근방식 선택하기 (지도학습 / 비지도학습)**입니다. 접근 방식을 결정함으로써 데이터 수집, 특징 추출 및 학습 알고리즘 개발과 같은 후속 작업들이 해당 방향에 맞게 진행될 수 있습니다. 지도학습과 비지도학습은 데이터의 종류와 목표에 따라 다르므로, 이 결정은 머신러닝 모델의 전체 구조를 정의하는 첫 단계입니다.

GPT는....

머신러닝 시스템을 설계할 때는 먼저 지도학습을 사용할 것인지, 또는 비지도 학습 방법을 사용할 것인지 결정하여야 함.
정답 : 접근방식 선택하기 (지도학습 / 비지도학습)

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오:

“머신러닝 시스템 설계에서는 먼저 학습 알고리즘을 간단하고 손쉽게 구현해 보는 것이 좋다. 그리고 하나의 숫자로 표현되는 (________)를 이용하여 (________)을 해 봄으로써 앞으로 어떻게 성능을 향상시켜야 하는지에 대한 아이디어를 얻을 수 있다.”
하나를 선택하세요.
예측 오차, 오차 분석
예측 오차, 최적 학습
평가 척도, 오차 분석
평가 척도, 최적 학습

평가 척도, 오차 분석! 

다음 문장의 빈칸에 들어갈 가장 적절한 단어는 **"평가 척도, 오차 분석"**입니다.

문장을 완성하면:  
“머신러닝 시스템 설계에서는 먼저 학습 알고리즘을 간단하고 손쉽게 구현해 보는 것이 좋다. 그리고 하나의 숫자로 표현되는 **평가 척도**를 이용하여 **오차 분석**을 해 봄으로써 앞으로 어떻게 성능을 향상시켜야 하는지에 대한 아이디어를 얻을 수 있다.”

평가 척도는 모델의 성능을 측정하는 데 사용되며, 오차 분석은 이 척도를 활용해 성능 개선 방향을 파악하는 데 도움을 줍니다.

먼저 학습 알고리즘을 빠르고 간단하게 구현한 다음, 하나의 수치로 표현되는 평가 척도를 사용하여 오차 분석을 수행함으로써, 학습 알고리즘을 추가적으로 어떻게 향상시킬 것인지 판단할 수 있음
정답 : 평가 척도, 오차 분석

 

SVM에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 음수가 된다
두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 양수가 된다
SVM에서 가중치 벡터에 대한 데이터의 투영이 클수록 비용 함수 값은 더 커진다
SVM에서 가중치 벡터에 대한 데이터 투영이 클수록 비용 함수 값은 더 작아진다

내적에서 반대 방향 (90 ~ 270도)는 음수가 된다!, 아까 가중치 벡터는 투영된 데이터와 반비례 하므로 투영된 데이터가 커지면 가중치 벡터는 작아지고, 비용함수는 작아진다!

SVM에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.

  1. 두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 음수가 된다
  2. 두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 양수가 된다
  3. SVM에서 가중치 벡터에 대한 데이터의 투영이 클수록 비용 함수 값은 더 커진다
  4. SVM에서 가중치 벡터에 대한 데이터 투영이 클수록 비용 함수 값은 더 작아진다

정답:

  1. 두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 음수가 된다
  2. SVM에서 가중치 벡터에 대한 데이터 투영이 클수록 비용 함수 값은 더 작아진다

설명:

  1. 두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 음수가 된다
    • 두 벡터 사이의 각도가 90도에서 270도 사이에 있으면, 이들의 내적은 음수가 됩니다. 이는 기본적인 벡터 내적의 성질입니다.
  2. SVM에서 가중치 벡터에 대한 데이터 투영이 클수록 비용 함수 값은 더 작아진다
    • SVM의 목표는 데이터 포인트가 결정 경계에서 최대한 멀리 떨어지도록 하는 것입니다. 이는 가중치 벡터에 대한 데이터 투영이 클수록 경계에서 멀리 떨어진다는 것을 의미하며, 이 경우 비용 함수 값은 더 작아집니다.

두 벡터 사이의 각도가 90-270 범위에 있을 때 벡터 내적은 음수가 됨.

SVM에서 가중치 벡터에 대한 데이터의 투영(projection)이 크면, 가중치 벡터와 데이터가 서로 유사하다는 의미이므로, 비용 함수값은 더 작아짐.

The correct answers are: 두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 음수가 된다, SVM에서 가중치 벡터에 대한 데이터 투영이 클수록 비용 함수 값은 더 작아진다

 

아래 설명의 빈칸에 들어갈 적절한 숫자를 고르시오:

“가우시안 커널을 사용하였을 때, 데이터 𝒙가 랜드마크에 가까우면 특징값은 ________에 가깝고,
  데이터 𝒙가 랜드마크에서 멀리 떨어지면 특징값은 ________에 가깝게 된다.”

하나를 선택하세요.
0, 0
0, 1
1, 0
1, 1

가까워지면 1, 멀어지면 0!

가우시안 커널을 사용하였을 때, 데이터 ( \mathbf{x} )가 랜드마크에 가까우면 특징값은 ____에 가깝고,
데이터 ( \mathbf{x} )가 랜드마크에서 멀리 떨어지면 특징값은 ____에 가깝게 된다.

하나를 선택하세요.

0, 0
0, 1
1, 0
1, 1

정답:

1, 0

 

가우시안 함수는 중심 부분의 값이 크고, 중심에서 멀어질수록 작은 값을 가지므로, 데이터가 랜드마크에 가까우면 가우시안 함수의 중심 부분에 위치하게 되므로 1에 가까운 값을 가지며, 데이터가 랜드마크에서 멀리 떨어지면 가우시안 함수의 중심에서 멀어지므로 0에 가까운 값을 가지게 됨.
정답 : 1, 0

 

아래 설명의 빈칸에 들어갈 가장 적절한 단어를 고르시오.

“________은 라벨이 지정되지 않은 데이터를 이용하여 학습하는 알고리즘이며,
데이터의 구조적 특성을 찾는 ________은 그 중 한 예이다. ”

하나를 선택하세요.
지도 학습, 구조예측
비지도 학습, 구조예측
지도 학습, 클러스터링
비지도 학습, 클러스터링

라벨이 지정되지 않았다 == 비지도 학습, 데이터 구조의 특성을 찾는다 == 클러스터링

문장에서 빈칸을 채울 가장 적절한 단어를 고르는 문제입니다. 문장은 다음과 같습니다:

____은 라벨이 지정되지 않은 데이터를 이용하여 학습하는 알고리즘이며, 데이터의 구조적 특성을 찾는 ____은 그 중 한 예이다. ”

이 문장을 분석해 보면, 첫 번째 빈칸은 라벨이 없는 데이터를 이용하는 학습 방법을 설명하고 있습니다. 두 번째 빈칸은 데이터의 구조적 특성을 찾는 방법을 나타내고 있습니다.

  • 라벨이 지정되지 않은 데이터를 이용하는 학습 알고리즘은 비지도 학습입니다.
  • 데이터의 구조적 특성을 찾는 방법 중 하나는 클러스터링입니다.

따라서, 빈칸을 채울 가장 적절한 단어는 다음과 같습니다:

비지도 학습은 라벨이 지정되지 않은 데이터를 이용하여 학습하는 알고리즘이며, 데이터의 구조적 특성을 찾는 클러스터링은 그 중 한 예이다.”

정답은 비지도 학습, 클러스터링입니다.

그래서 정답은:

비지도 학습, 클러스터링

비지도 학습은 라벨이 지정되지 않은 데이터를 가지고 학습하는 알고리즘이며, 클러스터링은 데이터의 구조적 특성을 발견하기 위한 과정이므로 비지도 학습에 해당됨.
정답 : 비지도 학습, 클러스터링

 

K-means알고리즘에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
1. K-means에서 최적화 목적함수는 각 클러스터 중심에서 데이터까지의 거리를 최소화하는 것이다
2. 최적화는 클러스터 할당 단계에서 수행된다
3. 최적화는 클러스터 중심 업데이트 단계에서 수행된다
4. 최적화는 클러스터 할당 단계 및 클러스터 중심 업데이트 단계 모두에서 수행된다

1번 맞고, 업데이트 단계에서 최적화 아니었나?

K-means 알고리즘에 관한 설명에서 올바른 것을 고르기 위해, K-means의 동작 원리와 각 단계에서 수행되는 작업을 이해하는 것이 중요합니다. K-means 알고리즘은 다음과 같은 단계로 이루어집니다:

  1. 초기 클러스터 중심 설정
  2. 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당 (클러스터 할당 단계)
  3. 각 클러스터 중심을 할당된 데이터 포인트들의 평균으로 업데이트 (클러스터 중심 업데이트 단계)
  4. 클러스터 할당 단계와 클러스터 중심 업데이트 단계를 반복하여 수렴할 때까지 진행

K-means의 최적화 목적함수는 각 클러스터 중심에서 데이터 포인트까지의 거리를 최소화하는 것입니다. 이는 클러스터 할당 단계와 클러스터 중심 업데이트 단계 모두에서 수행됩니다.

각 설명을 검토해 보겠습니다:

  1. K-means에서 최적화 목적함수는 각 클러스터 중심에서 데이터까지의 거리를 최소화하는 것이다
    • 맞습니다. K-means 알고리즘의 목적은 각 클러스터 중심에서 데이터 포인트까지의 거리의 제곱합을 최소화하는 것입니다.
  2. 최적화는 클러스터 할당 단계에서 수행된다
    • 부분적으로 맞습니다. 클러스터 할당 단계에서 데이터 포인트를 가장 가까운 클러스터 중심에 할당하여 거리를 최소화하려는 노력이 수행됩니다.
  3. 최적화는 클러스터 중심 업데이트 단계에서 수행된다
    • 부분적으로 맞습니다. 클러스터 중심 업데이트 단계에서는 각 클러스터의 중심을 새로 계산하여 클러스터 내의 데이터 포인트들에 더 가까운 중심을 찾습니다.
  4. 최적화는 클러스터 할당 단계 및 클러스터 중심 업데이트 단계 모두에서 수행된다
    • 맞습니다. 최적화는 클러스터 할당 단계에서 데이터 포인트를 가장 가까운 클러스터 중심에 할당하고, 클러스터 중심 업데이트 단계에서 클러스터 중심을 다시 계산하는 과정에서 모두 수행됩니다.

따라서, 올바른 설명은:

  1. K-means에서 최적화 목적함수는 각 클러스터 중심에서 데이터까지의 거리를 최소화하는 것이다
  2. 최적화는 클러스터 할당 단계에서 수행된다
  3. 최적화는 클러스터 중심 업데이트 단계에서 수행된다
  4. 최적화는 클러스터 할당 단계 및 클러스터 중심 업데이트 단계 모두에서 수행된다

결론적으로, 올바른 설명은 1, 2, 3, 4입니다.

1. K-means 알고리즘은 클러스터 중심에서 각 데이터까지의 거리를 최소화 함으로써 데이터를 군집화시키는 알고리즘 임.

4. 최적화는 클러스터 할당 단계와 클러스터 중심 업데이트 단계 모두에서 수행됨

The correct answers are: K-means에서 최적화 목적함수는 각 클러스터 중심에서 데이터까지의 거리를 최소화하는 것이다, 최적화는 클러스터 할당 단계 및 클러스터 중심 업데이트 단계 모두에서 수행된다

 

PCA에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
PCA는 데이터를 투영하고자 하는 저차원 평면을 찾는다.
PCA에서는 평균 정규화가 필요하지만 특징값 스케일링은 필요하지 않다.
좋은 PCA 투영은 데이터와 그것의 투영 사이의 거리를 최소화하는 것이다.

PCA는 저차원 평면을 찾고, 거리를 최소화하며 특징값 스케일링도 필요하죠!

PCA (Principal Component Analysis)에 관한 설명 중 올바른 것을 고르시오:

  1. PCA는 데이터를 투영하고자 하는 저차원 평면을 찾는다.
    • 올바른 설명입니다. PCA는 데이터를 가장 잘 설명할 수 있는 저차원 평면(또는 하이퍼플레인)을 찾는 방법입니다. 이 평면은 데이터의 분산을 최대화하는 방향들로 정의됩니다.
  2. PCA에서는 평균 정규화가 필요하지만 특징값 스케일링은 필요하지 않다.
    • 잘못된 설명입니다. PCA에서는 평균 정규화(데이터의 평균을 0으로 맞추는 것)뿐만 아니라, 특징값 스케일링(데이터의 분산을 동일하게 만드는 것)도 중요합니다. 이는 각 특징의 단위가 다를 경우, 큰 값의 특징이 주성분에 더 큰 영향을 미치는 것을 방지하기 위함입니다.
  3. 좋은 PCA 투영은 데이터와 그것의 투영 사이의 거리를 최소화하는 것이다.
    • 잘못된 설명입니다. 좋은 PCA 투영은 데이터와 투영 사이의 거리를 최소화하는 것이 아니라, 데이터의 분산을 최대화하는 방향을 찾는 것입니다. 이를 통해 데이터의 주요 변동을 가장 잘 설명할 수 있는 축을 선택하게 됩니다.

따라서 올바른 설명은 첫 번째 문장입니다.

오 GPT는 3번 틀렸다고 하네요?

PCA는 데이터를 낮은 차원의 평면으로 투영할 때, 데이터를 가장 적절하게 표현할 수 있는 투영 방향을 찾는 알고리즘 임.

PCA에서는 데이터의 평균 정규화와 특징값 스케일링 과정이 모두 필요함

좋은 PCA 투영이란, 데이터와 그것의 투영(projection) 사이의 거리를 최소화 하는 것임

The correct answers are: PCA는 데이터를 투영하고자 하는 저차원 평면을 찾는다., 좋은 PCA 투영은 데이터와 그것의 투영 사이의 거리를 최소화하는 것이다.

 

 

PCA에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 비율을 이용하여 결정할 수 있다.
주 성분의 개수는 1부터 시작하여 조건을 만족할 때까지 차례로 증가시켜 나가면서 결정할 수 있다.
주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하여 결정할 수 있다.

3개 다 맞는거 같은디 ?

PCA (Principal Component Analysis)에 관한 설명 중 올바른 것을 고르시오:

  1. 주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 비율을 이용하여 결정할 수 있다.
    • 올바른 설명입니다. 주 성분의 개수를 결정할 때 데이터의 평균 제곱 투영 오차 (Mean Squared Projection Error, MSPE)와 데이터의 전체 분산의 비율을 이용하는 방법이 사용됩니다. 일반적으로 누적 분산 설명 비율 (cumulative explained variance ratio)을 기준으로 주 성분의 개수를 결정합니다.
  2. 주 성분의 개수는 1부터 시작하여 조건을 만족할 때까지 차례로 증가시켜 나가면서 결정할 수 있다.
    • 올바른 설명입니다. 주 성분의 개수는 일반적으로 1부터 시작하여 누적 분산 설명 비율이 일정 임계값(예: 90% 또는 95%)에 도달할 때까지 차례로 증가시켜 나가면서 결정할 수 있습니다.
  3. 주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하여 결정할 수 있다.
    • 잘못된 설명입니다. PCA에서 주 성분의 개수를 결정하는 방법은 보통 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 비율을 이용하지, 합을 최소화하여 결정하지 않습니다. 일반적으로 분산을 최대화하는 방향을 선택하여 주 성분을 결정합니다.

따라서 올바른 설명은 첫 번째와 두 번째 문장입니다.

오... 3번이... 

3번 문장에 대해 더 설명하겠습니다:

잘못된 설명: "주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하여 결정할 수 있다."

이유: PCA의 목적은 데이터의 차원을 축소하면서 원래 데이터의 분산을 최대한 유지하는 것입니다. PCA는 데이터의 주 성분을 찾을 때, 데이터의 분산을 최대화하는 방향을 선택하여 주 성분을 결정합니다. 이 과정에서 주 성분의 개수를 결정하는 방법은 주로 데이터의 분산을 설명하는 비율을 기준으로 합니다.

구체적인 이유 설명:

  1. 분산의 최대화: PCA는 데이터를 가장 잘 설명할 수 있는 저차원 공간을 찾기 위해, 데이터의 분산을 최대화하는 방향(주 성분)을 찾습니다. 첫 번째 주 성분은 가장 큰 분산을 가지는 방향이고, 두 번째 주 성분은 첫 번째 주 성분에 직교하면서 그 다음으로 큰 분산을 가지는 방향입니다. 이러한 방식으로 주 성분을 차례로 선택합니다.
  2. 누적 분산 설명 비율: 주 성분의 개수를 결정하는 방법 중 하나는 누적 분산 설명 비율(cumulative explained variance ratio)을 사용하는 것입니다. 예를 들어, 전체 데이터 분산의 90% 또는 95%를 설명할 수 있는 주 성분의 개수를 선택합니다. 이는 주 성분의 개수를 증가시키면서 각 주 성분이 설명하는 분산의 비율을 누적하여 계산하고, 원하는 설명 비율에 도달할 때까지 주 성분의 개수를 늘리는 방식입니다.
  3. 평균 제곱 투영 오차(MSPE): PCA의 또 다른 관점은 주 성분으로 데이터를 재구성했을 때 원래 데이터와의 평균 제곱 투영 오차를 최소화하는 것입니다. 이는 원래 데이터와 주 성분으로 재구성한 데이터 사이의 차이를 최소화하는 방향을 찾는 것과 관련이 있습니다. 그러나 이 과정 역시 분산을 최대화하는 방향과 일치합니다.
  4. 잘못된 부분: 설명에서 "평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화"한다고 했지만, 이는 정확하지 않습니다. PCA는 분산을 최대화하는 방향으로 주 성분을 선택하며, 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하는 것이 아닙니다. 정확한 방법은 주 성분의 개수를 늘려가면서 원하는 분산 설명 비율에 도달할 때까지 주 성분을 선택하는 것입니다.

따라서 3번 문장은 잘못된 설명입니다. PCA에서는 데이터의 분산을 최대화하고, 주 성분의 개수를 결정할 때는 누적 분산 설명 비율을 기준으로 합니다. 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하는 방식은 PCA의 주 성분 개수 결정 방법을 올바르게 설명하지 않습니다.

데이터 분산을 일정한 값으로 유지하면 Principal Component의 수를 결정할 수 있음.

주 성분의 수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 합을 최소화하여 결정함.

The correct answers are: 주 성분의 개수는 데이터의 평균 제곱 투영 오차와 데이터의 전체 분산의 비율을 이용하여 결정할 수 있다., 주 성분의 개수는 1부터 시작하여 조건을 만족할 때까지 차례로 증가시켜 나가면서 결정할 수 있다.

 

아래 문장에 있는 빈칸에 들어갈 가장 적당한 단어를 하나 고르시오.

“이상 데이터 검출 모델은 (________)를 사용하여 데이터가 정상인지, 비정상인지 여부를 결정하며, 만약 데이터의 확률이 정해진 (________)보다 작으면 이상 데이터로 판정한다.”
하나를 선택하세요.
확률분포함수, 최소값
확률분포함수, 임계값
예측함수, 최소값
예측함수, 임계값

가우시안 분포! -> 확률 분포 함수, 입실론 == threshold == 임계값

문장의 빈칸에 들어갈 가장 적절한 단어는 "확률분포함수, 임계값"입니다. 따라서 정답은 2번입니다.

문장 완성:

“이상 데이터 검출 모델은 (확률분포함수)를 사용하여 데이터가 정상인지, 비정상인지 여부를 결정하며, 만약 데이터의 확률이 정해진 (임계값)보다 작으면 이상 데이터로 판정한다.”

선택지 분석:

  1. 확률분포함수, 최소값:
    • 확률분포함수를 사용하는 것은 맞지만, 최소값은 문맥에 맞지 않습니다. 일반적으로 이상 데이터 검출에서는 임계값을 사용합니다.
  2. 확률분포함수, 임계값:
    • 확률분포함수를 사용하여 데이터의 정상 여부를 판단하고, 이 확률이 정해진 임계값보다 작으면 이상 데이터로 판정하는 것이 일반적인 방법입니다. 문맥에 잘 맞습니다.
  3. 예측함수, 최소값:
    • 예측함수는 데이터의 정상 여부를 결정하는 데 적절하지 않습니다. 또한, 최소값은 임계값을 의미하지 않으므로 문맥에 맞지 않습니다.
  4. 예측함수, 임계값:
    • 예측함수는 확률분포함수에 비해 덜 일반적인 용어입니다. 이상 데이터 검출에서는 확률분포함수가 더 적절한 용어입니다. 임계값은 적절하지만, 예측함수와 함께 사용하기에는 부적절합니다.

이유:

이상 데이터 검출(anomaly detection)에서 자주 사용하는 방법은 데이터의 확률분포를 분석하고, 특정 데이터 포인트의 확률이 임계값(threshold)보다 작으면 그 데이터를 이상치로 판정하는 것입니다. 따라서 "확률분포함수"와 "임계값"이 문맥에 가장 잘 맞습니다.

1 : Fraud detection은 이상데이터 검출(anomaly detection)의 한 예에 해당됨.

2 : 이상데이터 검출 모델에서는 가우시안 확률분포 함수를 사용하여 대상 데이터가 정상범위에 속해 있는지, 비정상 범위에 속해 있는지 여부를 결정함.

3 : 데이터의 확률값이 미리 정해진 임계값(threshold) 보다 작으면 이상데이터로 간주함.

정답 : 확률분포함수, 임계값

 

 

다변수 가우시안 분포에 대한 다음 설명 중 올바른 것을 모두 고르시오.
하나 이상을 선택하세요.
서로 다른 특징값 간의 상관 관계를 자동으로 획득한다
계산량이 비교적 적다
공분산 행렬과 그 역행렬을 계산해야 할 필요가 있다
학습 데이터의 수가 특징 값의 수보다 적어야 한다.

2, 4는 무조건 틀린거고, 1번이 애매한데...   맞지 않을까 싶습니다. 내가 넣어주는게 아닌데 계산하면서 자동으로 나오는 거니까.

다변수 가우시안 분포에 대한 설명 중 올바른 것을 모두 고르시오:

  1. 서로 다른 특징값 간의 상관 관계를 자동으로 획득한다
    • 올바른 설명입니다. 다변수 가우시안 분포는 공분산 행렬을 통해 서로 다른 특징값 간의 상관 관계를 나타낼 수 있습니다. 이 공분산 행렬은 각 특징값 쌍 간의 상관 관계를 자동으로 반영합니다.
  2. 계산량이 비교적 적다
    • 잘못된 설명입니다. 다변수 가우시안 분포를 사용하려면 공분산 행렬과 그 역행렬을 계산해야 하기 때문에 계산량이 비교적 많습니다. 특히 특징값의 수가 많을수록 계산량이 기하급수적으로 증가합니다.
  3. 공분산 행렬과 그 역행렬을 계산해야 할 필요가 있다
    • 올바른 설명입니다. 다변수 가우시안 분포에서는 공분산 행렬과 그 역행렬을 사용하여 확률 밀도 함수를 계산하므로, 이를 계산해야 할 필요가 있습니다.
  4. 학습 데이터의 수가 특징 값의 수보다 적어야 한다.
    • 잘못된 설명입니다. 학습 데이터의 수는 일반적으로 특징값의 수보다 많아야 합니다. 그렇지 않으면 공분산 행렬이 특이 행렬이 되어 역행렬을 계산할 수 없게 되거나, 계산이 매우 불안정해질 수 있습니다.

따라서 올바른 설명은 첫 번째와 세 번째입니다.

다변수 가우시안 분포는 여러 특징값 들 간의 상관 관계를 자동적으로 획득함

다변수 가우시안 분포는 각 특징값들이 서로 독립적이라는 가정에 비해 계산량이 더 많음

다변수 가우시안 분포를 이용하면, 공분산 행렬과 그 역행렬을 계산하여야 함

 

The correct answers are: 서로 다른 특징값 간의 상관 관계를 자동으로 획득한다, 공분산 행렬과 그 역행렬을 계산해야 할 필요가 있다

 

1번

일 T와 성능지표 P로부터 경험 E를 통해 학습한다. 경험으로부터 학습한다!

3번 아닌가...?

 

2. 
1맞고
2전역최소
3번 겁나 애매하네 test할 때는 가장 좋은게 아닐 수 있는데 그럼 아니라고 가자
4맞다 하나하나 바꿔버리면 오류 발생 가능 한번에 바꿔야 된다.

3
여러개고 다른 것을 비슷한 것으로 바꿔주는 건데 문제 진짜 싫어.... 애매해....

4
1.가능
2.그럼 왜 분류한다 그르냐 분류 잘하지. 아니네 잘 못 분류하지 않는다..ㅋㅋㅋㅋㅋ.ㅠ
3. 비선형 가능
4. 선형 가능 

5
1vs all도 n개만 있으면 됩니다.

6
1 맞습니다
2 테스트는 나쁩니다
3 학습에 좋습니다
4 맞습니다

7
1. ? ??? 진짜 뭐지 역행렬이 만들어 진다네요 
2. 아뇨
3. 이게 맞아요
4. cost function에 들어가니 파라미터 업데이트에 들어가죠

더보기

정규화(Regularization)는 선형 회귀에서 과적합(overfitting)을 방지하기 위해 모델의 복잡성을 제어하는 기법입니다. 정규화에는 주로 L2 정규화(Ridge 회귀)와 L1 정규화(Lasso 회귀)가 사용됩니다. 여기서 중요한 개념은 정규화가 역행렬의 존재 여부와 어떤 관계가 있는지입니다.

L2 정규화 (Ridge 회귀)

L2 정규화는 비용 함수에 가중치의 제곱합을 추가하여 모델의 복잡성을 제어합니다. 정규화 항을 추가한 비용 함수는 다음과 같이 정의됩니다:

[ J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 + \frac{\lambda}{2m} \sum_{j=1}^{n} \theta_j^2 ]

여기서 (\lambda)는 정규화 파라미터입니다. 정규화된 선형 회귀의 매개변수 (\theta)를 찾기 위해서는 다음과 같은 정상 방정식을 사용합니다:

[ \theta = (X^TX + \lambda I)^{-1}X^Ty ]

여기서 (I)는 단위 행렬입니다.

역행렬의 존재 여부

정규화 항 (\lambda I)를 추가하면, (X^TX + \lambda I)는 항상 역행렬이 존재하게 됩니다. 이유는 다음과 같습니다:

  1. (X^TX)는 대칭 행렬이고, 보통은 양의 정부호 행렬입니다.
  2. (\lambda I)는 항상 양의 정부호 행렬입니다 (모든 (\lambda > 0)).

양의 정부호 행렬 두 개의 합은 여전히 양의 정부호 행렬이므로, (X^TX + \lambda I)는 항상 역행렬이 존재합니다.

결론

시험 선지에서 "정규화를 진행하면 정규 방정식 계산 과정에서 역행렬이 존재하지 않게 된다"는 것은 옳지 않습니다. 사실 정규화를 진행하면 역행렬의 존재 여부가 보장됩니다.

따라서, 정규화를 통해 (X^TX + \lambda I)가 역행렬을 가지게 되어 선형 회귀 문제를 안정적으로 풀 수 있습니다. 이로 인해 과적합을 방지하면서도 수치적으로 안정적인 해를 얻을 수 있습니다.

8
뉴런들이 여러 개의 층으로 구성되어 있죠

 

9
1 그렇게 볼 수 있죠 
2 달라도 됩니다 
3 입력층을 포함하지 말고 2개 이상이죠
4 맞습니다 

10
1. 맞습니다
2. 그렇게 쭉쭉 퍼져나가는 거죠
3. ㄴㄴ 그럼 업데이트 안됩니다
4. 비용함수가 중앙에 있으면 그게 뭘로 계산되는건디...?

11
1. 균일한 분포를 가진 랜덤 값이 좋다고 그랬져 
2. 줄 수도 있겠네요 할 값어치도 없으니....
3. ???? 그럼 학습이 안되는거 아닌가요..?
4. 수렴 안됩니다 or 엄처 오래 걸립니다.

12
학습 검증 테스트! (Train Validation Test)

13
학습곡선 2개를 그려보면 딱 나오져

14
1. 아녀유 
2. 맞어여 데이터의 수가 엄청나게 불균형 된 문제들 
3. 이건 아닐거 같아여 

더보기

불균형 데이터 문제(Unbalanced Data Problem)는 클래스 간의 표본 수가 크게 차이나는 상황을 말합니다. 예를 들어, 이진 분류(binary classification)에서 긍정 클래스(positive class)가 1%이고 부정 클래스(negative class)가 99%인 경우가 있습니다. 이러한 상황에서는 분류기가 다수 클래스만 정확히 예측하더라도 높은 정확도를 보일 수 있어 학습이 어려워집니다.

불균형 데이터 문제의 정의

불균형 데이터 문제는 데이터의 클래스 비율이 불균형한 모든 경우에 적용됩니다. 이 문제는 클래스의 개수와 무관하게 발생할 수 있습니다. 클래스의 개수가 2개든, 10개든, 그 이상이든, 클래스 간의 표본 수가 크게 차이나면 불균형 데이터 문제에 직면하게 됩니다.

불균형 데이터 문제의 특징

  • 클래스의 개수와 무관: 불균형 데이터 문제는 클래스의 개수와 상관없이 발생할 수 있습니다. 클래스의 개수가 2개일 수도 있고, 10개 이상일 수도 있습니다.
  • 다수 클래스의 영향: 분류기가 다수 클래스에 편향될 수 있으며, 이는 소수 클래스의 분류 성능을 저하시킵니다.
  • 평가지표의 왜곡: 정확도(accuracy)와 같은 단순한 평가지표는 불균형 데이터 문제를 제대로 반영하지 못할 수 있습니다.

결론

따라서 "불균형 데이터 분류 문제에 대해 묻는데 데이터 부류의 개수가 10개 이상인 문제라고 그러는데 이게 맞는거야?"라는 질문의 답변은:

  • 불균형 데이터 문제는 클래스의 개수와 상관없이 발생할 수 있습니다.
  • 클래스가 10개 이상인 경우에도 불균형 데이터 문제는 여전히 존재할 수 있습니다.
  • 불균형 데이터 문제는 주로 클래스 간의 표본 수 차이에 의해 정의되므로, 클래스의 개수보다는 클래스 간의 표본 수 불균형이 중요한 요소입니다.

결론적으로, 불균형 데이터 문제는 클래스의 개수가 10개 이상일 때도 발생할 수 있으며, 클래스의 개수와 무관하게 표본 수의 불균형이 문제의 핵심입니다.

15
1 둘다 높아야 좋습니다
2. 평균 하지 말라고 그랬잖아요 ㅠ
3. f1이 맞습니다~

16 
1. 경우 다 나뉘어 있습니다 
2. 이 때 가우시안 커널 사용하라고 했던 것 같아서 맞는 것 같네요 
3. 이 떄 SVM은 너무 오래 걸린다고 했습니다 ㅎㅎ
4. 계산량이 많다고 했습니다. 

17
4번입니다. 클러스터 어딘지 찾고, 그에 따라 중앙으로 옮기기!

18
1. 빠질 수 있다 그랬습니다
2. 이건 너무 애매하잖아. 1% 확률이라도 똑같은 클러스터가 될 수 있지 
3. 여러번 하다보면 피할 수도 있죠 
4. 네 3번에서 가능했습니다. 여러번도 

19
과적합 때 절 대 사용하지 말라고 했어유 강의에서 

20
1. 네 그렇게 정했죠 
2. 독립적이어야 그럴 수 있었죠 
3. 보통은 6,2,2라고 그랬죠 
4. 작아야 그럴 수 있습니다.

728x90