인공지능/공부

생성형 인공지능 5주차 2차시 transformer - ViT 모델

이게될까 2024. 4. 2. 16:57
728x90
728x90

256*256 -> 16*16으로 자른다.

Lx - 여러 개의 레이어를 사용할 수 있다.

ablation study - 여러 시행 착오를 통해 가장 좋은 값을 찾기

포지션이 있기 때문에 자신의 위치를 찾을 수 있다.

노란색일경우 유사도가 큰 것이다.

MLP == FCN 

CNN 은 데이터양이 많이 늘어나면 문제가 생긴다

거대 시스템 - 큰 회사가 서비스를 할 때 CNN으로 하려면 문제가 있다. -> transformer 모델 선호

728x90