인공지능/공부

머신러닝 9주차 1차시 - 예측 함수 성능 평가(데이터 셋 분류)

이게될까 2024. 5. 1. 23:44
728x90
728x90

어떤 선수가 가장 좋은 결과를 얻었을까?

 

비용함수를 최소화해보자

 

보지 못한 데이터 == 학습 과정에 사용하지 않은 데이터 == 테스트 데이터로 사용한다.

여기서도 잘 작동하면 문제 없다.

오차가 크다 -> 성능 향상 필요

 

학습데이터 더 많이 수집하기 - 시간과 노력 필요-> 확실하게 알고 시작하기

 

너무 많은 수의 특징값을 사용하고 있다. - 필요한 특징값 몇개만 사용하여 과적합 방지를 위해 노력한다.

 

특징 값의 개수를 늘린다.

 

제곱, 곱하여 새로운 특징값 만들기

정규화 파라미터 람다 감소하기! -> 학습 더 잘 한다.

 

 

 

학습 오차를 최소화하는 파라미터를 선택해야 한다.

 

새로운 데이터에 대해 일반화 시키지 못한다. == 오버피팅

 

예측함수를 그려서 시각적으로 확인하기

 

랜덤하게 선택한 데이터들! 

오차를 최소화 하도록 학습 후 테스트 데이터에 대한 비용함수를 구한다!

Logistic regression은 다른 오차 함수를 사용할 수 있다.

잘못 분류한 경우 1, 옳게 분류한 경우 0을 부여한다.

비율을 통해 계산한다.( 0 ~ 100% 까지)

728x90