인공지능/자연어 처리

자연어 처리 정리 - Deep learning recap 2

이게될까 2024. 4. 12. 18:18
728x90
728x90

SGD - 샘플마다 업데이트하기 때문에 진동이 크다!

모든 샘플을 다 사용하는 batch learning!(epoch learning)

local min에 빠질 위험이 크다!

 

두가지를 섞어서!

Momentum

parameter update = 최적화

Ada grad

 

 

overfitting

오버피팅, 과적합

주황색이 test data겠네요

Drop out

오버피팅 된 weight의 값은 크다 -> weight의 값을 감소시킨다.

Data argumentation
batch normalization

 

layer normalization

 

weight Initialization

 

ensemble

오버피팅 방지, 학습 다향성 증가

 

728x90