반응형

2024/05/01 2

머신러닝 9주차 2차시 - 최적 모델의 선택(데이터 셋 나누기)

다항식의 차수는 얼마나 할까? 특징값은 얼마나 포함할까?정규화 파라미터는 어떻게 선택할까?학습, 검증, 테스트 데이터로 나누기!예측 함수가 새로운 데이터에서도 잘 작동한다고 보장할 수 없다.학습 오차가 검증이나 테스트 오차보다 작다.1 ~ 10차 함수까지 다 고려하여 적합한 다항식 차수 찾기이다.test 오차를 검사한다! 검증 데이터는 안쓰네공정한 평가가 아니다! 여기서 validation이 나오네요 세 가지의 오차값을 구할 수 있게 된다.일단 train을 통해 최적 파라미터를 각각 구한다.validation을 통해 최소 오차인 차수를 구한다! -> 그걸로 test data를 오차 계산

인공지능/공부 2024.05.01

머신러닝 9주차 1차시 - 예측 함수 성능 평가(데이터 셋 분류)

어떤 선수가 가장 좋은 결과를 얻었을까? 비용함수를 최소화해보자 보지 못한 데이터 == 학습 과정에 사용하지 않은 데이터 == 테스트 데이터로 사용한다.여기서도 잘 작동하면 문제 없다.오차가 크다 -> 성능 향상 필요 학습데이터 더 많이 수집하기 - 시간과 노력 필요-> 확실하게 알고 시작하기 너무 많은 수의 특징값을 사용하고 있다. - 필요한 특징값 몇개만 사용하여 과적합 방지를 위해 노력한다. 특징 값의 개수를 늘린다. 제곱, 곱하여 새로운 특징값 만들기정규화 파라미터 람다 감소하기! -> 학습 더 잘 한다.   학습 오차를 최소화하는 파라미터를 선택해야 한다. 새로운 데이터에 대해 일반화 시키지 못한다. == 오버피팅 예측함수를 그려서 시각적으로 확인하기 랜덤하게 선택한 데이터들! 오차를 최소화 하..

인공지능/공부 2024.05.01
728x90
728x90