시작하기 전에 attention에 대해 복습...
Transformer 모델의 핵심 구성 요소 중 하나인 Attention 메커니즘은, 입력 시퀀스 내의 각 단어가 다른 단어들과 어떻게 상호 작용하는지를 모델링하는 방식입니다. 이 메커니즘을 통해 모델은 중요한 단어에 더 많은 "주의"를 기울이고, 문맥을 더 잘 이해할 수 있게 됩니다.
Attention의 기본 원리
Attention 메커니즘의 기본 아이디어는 "어떤 단어들에 주목해야 하는가?"입니다. 예를 들어, 문장 "The cat sat on the mat"를 처리할 때, "sat"라는 단어에 주목하면 "cat"과 "mat"이라는 단어와의 관계를 더 잘 파악할 수 있습니다. 이처럼 Attention은 특정 단어를 해석할 때 문맥상 중요한 다른 단어들에 가중치를 더 부여합니다.
Transformer에서의 Attention
Transformer 모델에서는 "Scaled Dot-Product Attention"과 "Multi-Head Attention" 두 가지 형태의 Attention을 사용합니다.
Scaled Dot-Product Attention
이 형태의 Attention은 주어진 '쿼리(Query)'에 대해 모든 '키(Keys)'와의 유사도를 계산하고, 이 유사도를 사용하여 '값(Values)'의 가중합을 계산합니다. 여기서 스케일링(Scaled)은 유사도 점수가 너무 커지는 것을 방지하기 위해 도입된 개념입니다.
- 쿼리(Query): 주목하고자 하는 단어 (해석하고자 하는 단어)
- 키(Keys): 모든 단어에 대한 유사도를 계산할 대상
- 값(Values): 각 단어가 가지고 있는 정보
Multi-Head Attention
이는 여러 개의 Attention 메커니즘(Head)을 병렬로 사용하여 서로 다른 표현 공간에서 Attention을 계산합니다. 이를 통해 다양한 문맥 정보를 동시에 포착할 수 있습니다.
예시: 문장 번역
영어 문장 "The cat sat on the mat"를 프랑스어로 번역한다고 가정해봅시다. "sat"라는 단어에 대한 Attention을 계산할 때, Transformer는 "cat"과 "mat"이라는 단어에 높은 가중치를 부여하게 됩니다. 이는 "sat"의 의미를 해석하는 데 있어 "cat"과 "mat"이 중요한 문맥적 단서를 제공하기 때문입니다.
Transformer 모델이 문장을 처리할 때, 각 단어는 자신의 위치에 상관없이 문장 속 다른 모든 단어와의 관계를 고려하여 정보를 통합합니다. 이를 통해, 모델은 전체 문장의 문맥을 효과적으로 파악하고, 정확한 번역을 생성할 수 있게 됩니다.
결론
Transformer 모델의 Attention 메커니즘은 문장 내 단어들 사이의 복잡한 관계를 모델링하는 강력한 도구입니다. 이를 통해 모델은 문장의 의미를 보다 정확하게 이해하고, 언어 처리 작업에서 뛰어난 성능을 발휘할 수 있습니다.
U net도 인코더와 디코더로 이루어져 있다.
Image Segmentation ! - 문제가 생긴 부분을 컴퓨터가 다 분류해준다.
CNN - pexel
transformer - patch
skip Connection이 중요하다! - 원래 큰 픽셀의 공간 정보를 넘겨준다.
==residual connection
U-net = incoder + decoder + skip connection
u-net이 하고자 하는 것:
정보를 압축시키고 압축시켜 latent vector로 만들어 디코더를 통해 원래대로 돌아가기
segmentation과 noise cancelling을 한다. anormaly!
skip connection을 통해 계속 정보를 받아온다.
'인공지능 > 공부' 카테고리의 다른 글
생성형 인공지능 5주차 5차시 Transformer - 영상 트랜스포머 응용1 (0) | 2024.04.02 |
---|---|
생성형 인공지능 5주차 4차시 Transformer - Multi Head Attention 다중 머리 주의 (0) | 2024.04.02 |
생성형 인공지능 5주차 2차시 transformer - ViT 모델 (0) | 2024.04.02 |
생성형 인공지능 5주차 1차시 transformer - 영상 패치 임베딩 (0) | 2024.04.02 |
모두를 위한 머신러닝 5주차 퀴즈 (0) | 2024.04.02 |