728x90
728x90
목표 - 다양한 분야에서 범용적으로 사용되는 Transformer의 작동 원리를 이해할 수 있다.



초기셀의 정보가 사라지는 것은 아직도 해결 X


이전셀의 계산이 끝나지 않으면 계속 기다려야 한다.

효율적인 모델 구조- 대규모 데이터에 대해 효율적으로 학습 가능해졌다.




CNN은 거리를 뭉게기 때문에 어렵다.




순차적으로 들어오지 않기 때문에 순서 정보를 넣어주는 것이 필요하다.




위치마다 값이 다르다 -> 삼각함수


짝수 - sin
홀수 - cos

논문에서 d_model = 512 차원이다.








차원을 줄인다.

모든 단어에 대해 진행할 수 있다.



RNN이 가진 병목을 가지는 것 처럼 보인다.

행렬을 통해 일괄로 처리한다.













역전파나 계속 진행되도 activation에 의해 0으로 줄어드는 것을 막아준다.








728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
| 자연어 처리 문장 embedding 만들기 - BERT (0) | 2024.03.28 |
|---|---|
| 자연어 처리 문장 embedding 만들기 - GPT (0) | 2024.03.27 |
| 자연어 처리 문장 embedding만들기 - ELMo (0) | 2024.03.24 |
| 자연어 처리 문장 임베딩 만들기 - Seq2Seq (1) | 2024.03.24 |
| 자연어 처리 문장 임베딩 만들기 - 자연어 처리를 위한 모델 구조 (0) | 2024.03.24 |