728x90
728x90
여기는 영상과 언어가 합쳐진다!




pooling 최고에 대한 컨텍스트 백터를 찾는 과정이다.
컨텍스트 백터 = latent vector

좌측은 영상이고, 우측은 text이다.

self attention을 추가한다.
동적 컨텍스트화 : 디코더가 각각 다른 부분에 집중하게 된다.




728x90
'인공지능 > 공부' 카테고리의 다른 글
| 생성형 인공지능 10주차 4차시 - 영상 주석 생성 2 (0) | 2024.05.12 |
|---|---|
| 생성형 인공지능 10주차 3차시 - 영상 주석 생성 1 (0) | 2024.05.11 |
| 생성형 인공지능 10주차 1차시 - 인코더 디코더 구조 (0) | 2024.05.11 |
| 모두를 위한 머신러닝 10주차 퀴즈 (0) | 2024.05.09 |
| 모두를 위한 머신러닝 10주차 5차시 - 학습 데이터 수와 테스트 오차의 관계 (0) | 2024.05.09 |