인공지능/자연어 처리

자연어 처리 - MLP, 최적화, Gradient Descent

이게될까 2024. 1. 17. 16:48
728x90
728x90

MLP

one layer Neural network
one Layer로는 해결할 수 없다.
식을 정리해봤다.
메트릭스와 백터로 식을 바꾼다.
식을 묶으면 이렇게 나온다.
layer가 두개인 N.N을 만들었다.

이것도 블로그 내에 엄청 자주 나오던 내용이다.

 

MLP를 일반화 해 보았다.
보기 쉽게 설명 되어있네요.

 

모델 최적화

모델 학습이란 이런 파라미터를 학습하는 것이다.
학습에 필요한 것
Lost function, cost function, theta 최소화
경사 하강법
역전파
역전파 계산 법
computation Graph

각각의 미분값들을 계산해 놓아서 저장된 값을 빠르게 사용하여 중복 계산을 막는다.

여기선 다 1이다. ( 변하는 만큼 변한다.)

곱하기에선 비율만큼 움직인다.

다양한 부호에서의 편미분 값
간단한 예시

b는 a의 제곱이니까 넣으면 알 수 있다.

간단한 예시

Gradient Descent

단어 개념
loacal minimun과 Global minimun
gradient descent를 방해하는 여러 요소들이 있다.
모든 데이터를 한번에 다 써서 하는 것 epoch = iteration
하나 씩 업데이트하므로 학습속도는 굉장히 빠르나 이상치의 영향도 크다.
위 두가지 방식의 중간

 

728x90