728x90
728x90
문맥을 포함할 수 있다...? 대량, 병렬처리 가능
번역, Q&A 등 여러가지가 가능하다.
1. Long range Association Dependency : RNN, LSTM, GRU의 단점을 보안
2. Context 문맥 잘 이해
3. 각자 프로세스가 따로 놀아도 된다. -> 대용량 빠른 처리 가능, 여러 사람이 동시에 사용 가능
가변길이 -> LSTM에서는 패딩을 사용했지만 여기선 안그래도 된다.
계층구조 -> CNN과 유사한 구조를 가지고 있다.
Pre- Traning = 내가 이미 학습된 것을 파인튜닝하여 사용할 수 있다.
Multi modal = 다양한 input을 엮어서 보내준다.
해석 가능 =다른 모델은 Weight을 봐도 의미가 없지만 Self- attention은 Weight의 흐름이 보이기 때문에 예측이 가능하다!
728x90
'인공지능 > 공부' 카테고리의 다른 글
생성형 인공지능 4주차 Transformer 5차시 - Transformer 동작 원리 (0) | 2024.03.27 |
---|---|
생성형 인공지능 4주차 Transformer 4차시 - Multi-Head Attention 다중머리 주의 (0) | 2024.03.26 |
생성형 인공지능 4주차 Transformer 2차시 - Self-Attention 1 자기 주의 (0) | 2024.03.26 |
생성형 인공지능 4주차 Transformer 1차시 - 워드 임베딩 word embedding (1) | 2024.03.26 |
머신러닝 과제 1 (1) | 2024.03.26 |