인공지능/공부

생성형 인공지능 11주차 1차시 - 언어 기반 영상 생성 구조

이게될까 2024. 5. 18. 16:22
728x90
728x90

말, 언어를 이용해서 영상을 생성한다.

죄다 짬뽕 되어 있네요

가장 대표적인 아키텍쳐가 달리(DALL-E)이다.

가장 선도적인 모델이다.

트렌스포머 전에는 Colvolution이었다.

transformer 모델이 성능이 좋아서 convolution에서 변경되었다.

이미지가 상업적으로 쓸만해지면서 생성형 인공지능 파트가 중요해짐 

 

BERT는 인코더 기반으로 긴 Sentence를 사용할 수 있다.

다양한 이미지를 사용하고 싶으면 Vit를 진행하면 된다.

 

txt와 사진을 전부 받을 수 있다.

 

디퓨전은 메모리가 사용이 많이된다.

 

생성 영상과 실제 영상을 비교해서 손실 함수를 계산한다.

이 것도 실제 영상이 어쩔 수 없이 필요하긴 하네요 ㅎㅎ...

 

 

 

728x90