2024.04.11 - [인공지능/공부] - transformer, attention 정리 2 transformer, attention 정리 2 seq2seq - RNN기반 모델 = vanishing gradient problem, 고정된 벡터에 모든 정보 압축하다 보니 정보 손실 발생 이 구조는 입력 문장이 길면 품질이 떨어지게 된다! -> attention 등장 attention value - 단어가 얼마 yoonschallenge.tistory.com 여기 이어서 계속 되는 자료입니다. 자연어 처리에서 순서가 중요하다는 것을 알기 때문에 순서를 집어 넣어준다! 위치정보가 반영된다! 근데 positional encoding을 하면 I가 다른 단어의 embedding과 동일하게 변하는 경우도 생기지 않..