728x90
728x90
여기는 영상과 언어가 합쳐진다!
pooling 최고에 대한 컨텍스트 백터를 찾는 과정이다.
컨텍스트 백터 = latent vector
좌측은 영상이고, 우측은 text이다.
self attention을 추가한다.
동적 컨텍스트화 : 디코더가 각각 다른 부분에 집중하게 된다.
728x90
'인공지능 > 공부' 카테고리의 다른 글
생성형 인공지능 10주차 4차시 - 영상 주석 생성 2 (0) | 2024.05.12 |
---|---|
생성형 인공지능 10주차 3차시 - 영상 주석 생성 1 (0) | 2024.05.11 |
생성형 인공지능 10주차 1차시 - 인코더 디코더 구조 (0) | 2024.05.11 |
모두를 위한 머신러닝 10주차 퀴즈 (0) | 2024.05.09 |
모두를 위한 머신러닝 10주차 5차시 - 학습 데이터 수와 테스트 오차의 관계 (0) | 2024.05.09 |