인공지능/자연어 처리

자연어 처리 5강 - Deep Learning Recap 1

이게될까 2024. 4. 12. 17:17
728x90
728x90

Evaluation - Forward propagation == inference 추정하다.

feedforward
activation function
softmax

exp 사용하는 이유는 최대값에 민감하게 반응하기 때문이ㅏㄷ

loss = prediction과 label을 비교하여 차이를 구한다.

loss function
학습과정

cross entropy loss를 줄이는 방향으로 학습한다.

항상 경사 하강법을 사용하는 것은 아니다! 그러나 특정 상황에서만 쓴다.

, 딥러닝에서 파라미터 최적화는 주로 손실 함수의 그래디언트(미분값)를 이용한 방법에 의존합니다. 이는 그래디언트 디센트 방법과 그 변형들이 딥러닝 모델의 학습에 널리 사용되는 이유입니다. 손실 함수의 그래디언트를 계산하고, 이를 사용해 모델의 가중치를 조정함으로써, 모델을 더 좋은 성능으로 이끌어갈 수 있습니다.

그래디언트 기반 방법 이외에도 몇 가지 다른 접근 방법이 있긴 하지만, 이들은 주로 특정 문제나 상황에 한정적으로 사용됩니다. 예를 들어:

- **유전 알고리즘(Genetic Algorithms)**: 자연 선택과 유전자 변이의 원리에 기초하여 최적화 문제를 해결합니다. 이 방법은 파라미터 공간을 무작위로 탐색하며, 성능이 좋은 "개체"의 특성을 다음 세대에 전달하여 점차 최적의 해를 찾아갑니다. 유전 알고리즘은 그래디언트 정보가 필요 없으나, 대규모 딥러닝 모델에는 비효율적일 수 있습니다.

- **베이지안 최적화(Bayesian Optimization)**: 목적 함수의 불확실성을 모델링하고, 이를 기반으로 파라미터를 조정합니다. 이 방법은 특히 하이퍼파라미터 최적화에 유용하게 사용됩니다. 그러나 베이지안 최적화 역시 큰 모델이나 데이터셋에는 계산 비용이 매우 높을 수 있습니다.

- **시뮬레이티드 어닐링(Simulated Annealing)**: 물리학의 어닐링 과정을 모방하여 최적화를 수행하는 방법입니다. 이 방법은 초기에는 높은 온도(큰 변화)에서 시작해 점차 온도를 낮추며(변화 폭을 줄이며) 최적점을 찾아갑니다. 특정한 상황에서 유용할 수 있으나, 일반적으로 큰 딥러닝 모델에는 적합하지 않습니다.

이러한 방법들은 그래디언트 기반 방법의 대안으로 사용될 수 있지만, 현재 딥러닝에서는 그래디언트 디센트와 그 변형이 최적화 문제를 해결하기 위한 가장 기본적이고 효율적인 도구로 간주됩니다. 그래디언트 기반 방법이 제공하는 정보(손실 함수의 기울기)를 활용하는 것이, 대부분의 경우에서 가장 정확하고 신속하게 모델을 최적화할 수 있는 방법이기 때문입니다.

Gradient decent

 

 

체인 룰을 사용하여 하나하나 미분하자!

 

 

 

 

 

728x90