인공지능/공부

생성형 인공지능 4주차 Transformer 3차시 - Self-Attention 2 자기 주의

이게될까 2024. 3. 26. 17:58
728x90
728x90

문맥을 포함할 수 있다...? 대량, 병렬처리 가능

번역, Q&A 등 여러가지가 가능하다.

1. Long range Association Dependency : RNN, LSTM, GRU의 단점을 보안

2. Context 문맥 잘 이해

3. 각자 프로세스가 따로 놀아도 된다. -> 대용량 빠른 처리 가능, 여러 사람이 동시에 사용 가능

가변길이 -> LSTM에서는 패딩을 사용했지만 여기선 안그래도 된다.

계층구조 -> CNN과 유사한 구조를 가지고 있다.

Pre- Traning = 내가 이미 학습된 것을 파인튜닝하여 사용할 수 있다.

Multi modal = 다양한 input을 엮어서 보내준다.

해석 가능 =다른 모델은 Weight을 봐도 의미가 없지만 Self- attention은 Weight의 흐름이 보이기 때문에 예측이 가능하다!

 

728x90