인공지능/공부

생성형 인공지능 5주차 1차시 transformer - 영상 패치 임베딩

이게될까 2024. 4. 2. 15:39
728x90
728x90

 

CNN은 영상의 픽셀 단위로 필터를 적용하고 있다.

픽셀보다는 큰 단위가 패치이다.

패치 번호가 중요하다.

positional embedding 이 패치의 번호가 어디고, 상관 관계의 번호를 기억한다.

ViT

이걸 더 발전 시켜서 Swin, PVT 등등 나오고 있다.

728x90