인공지능/공부

머신러닝 9주차 3차시 - bias, Variance

이게될까 2024. 5. 2. 00:35
728x90
728x90

언더 피팅 - 지나치게 단순해서 데이터의 추이를 따라가지 못한다.
오버 피팅 - 지나치게 복잡하다( 지나치게 높은 차수)

적당히 따라가서 트랜드를 잘 따라간다 == 일반화 성능이 우수하다.

차수가 증가함에 따라 학습 오차는 점점 준다

validation은 일정 이상이 되면 오차가 늘어난다.

둘다 크면 언더피팅이죠! == 높은 편향!

y 만 관측 가능하고, 입실론 때문에 오차가 발생하게 되낟. 

y의 평균은 h, 분산은 시그마의 제곱이 된다. 

노이즈의 평균값은 0이므로 사라지는 값이 생긴다.

시그마 제곱 - 원래 데이터를 생성하는 모델에 포함되어 있는 노이즈의 분산

Variance - 파라미터를 완벽하게 예측할 수 없기 때문에 생기는 오차

bias - 단순화하였기 때문에 생긴 오차

정규화 항이 있다면?

 

람다 값을 어떻게 잘 선택할까?

적당히 작은 값.....

정규화 항이 없다면 다 똑같이 정의된다.

가장 낮은 값이 5였다면? 

뭐야 람다 없다면서 람다 왜 있어. 이제보니까?????????????

test와 validation엔 정규화 항이 없다.

정규화 파라미터 값에 따라 오버피팅, 언더 피팅이 나뉘게 된다.

bias - 올바른 해답을 얼마나 잘 표현한지 기대할 수 있나.

variance - 모델이 얼마나 민감하게 변동성을 보여주냐

728x90