인공지능/공부

생성형 인공지능 10주차 2차시 - 인코더 디코더 동작 원리

이게될까 2024. 5. 11. 17:46
728x90
728x90

여기는 영상과 언어가 합쳐진다!

pooling 최고에 대한 컨텍스트 백터를 찾는 과정이다.

컨텍스트 백터 = latent vector 

좌측은 영상이고, 우측은 text이다.

self attention을 추가한다.

동적 컨텍스트화 : 디코더가 각각 다른 부분에 집중하게 된다.

728x90