머신러닝 3주차 3차시 - 경사 하강, 학습 속도 오버 슈팅, 너무 느린 수렴 속도 이것 때문이라도 스케일링이 중요하겠네요 초기에는 빠르게 감소하다가 수렴에 다가가면 천천히 감소한다 -> 언제 비용함수 값이 최솟값에 도달했는지 판단할 수 있다. 경사 하강의 발산 - 오버슈팅 -> 학습 상수가 너무 크다. 보통 저는 0.001 사용했던것 같네요 adam optimizer로 보완된건가...? factor는 사용해본적이 없네요. 그냥 0.03을 넣은 적은 있어도,.. 인공지능/공부 2024.03.18
자연어 처리 - MLP, 최적화, Gradient Descent MLP 이것도 블로그 내에 엄청 자주 나오던 내용이다. 모델 최적화 각각의 미분값들을 계산해 놓아서 저장된 값을 빠르게 사용하여 중복 계산을 막는다. 여기선 다 1이다. ( 변하는 만큼 변한다.) 곱하기에선 비율만큼 움직인다. b는 a의 제곱이니까 넣으면 알 수 있다. Gradient Descent 인공지능/자연어 처리 2024.01.17