인공지능/공부

생성형 인공지능 5주차 3차시 Transformer - U-net 형 model

이게될까 2024. 4. 2. 20:36
728x90
728x90

시작하기 전에 attention에 대해 복습...

Transformer 모델의 핵심 구성 요소 중 하나인 Attention 메커니즘은, 입력 시퀀스 내의 각 단어가 다른 단어들과 어떻게 상호 작용하는지를 모델링하는 방식입니다. 이 메커니즘을 통해 모델은 중요한 단어에 더 많은 "주의"를 기울이고, 문맥을 더 잘 이해할 수 있게 됩니다.

Attention의 기본 원리

Attention 메커니즘의 기본 아이디어는 "어떤 단어들에 주목해야 하는가?"입니다. 예를 들어, 문장 "The cat sat on the mat"를 처리할 때, "sat"라는 단어에 주목하면 "cat"과 "mat"이라는 단어와의 관계를 더 잘 파악할 수 있습니다. 이처럼 Attention은 특정 단어를 해석할 때 문맥상 중요한 다른 단어들에 가중치를 더 부여합니다.

Transformer에서의 Attention

Transformer 모델에서는 "Scaled Dot-Product Attention"과 "Multi-Head Attention" 두 가지 형태의 Attention을 사용합니다.

Scaled Dot-Product Attention

이 형태의 Attention은 주어진 '쿼리(Query)'에 대해 모든 '키(Keys)'와의 유사도를 계산하고, 이 유사도를 사용하여 '값(Values)'의 가중합을 계산합니다. 여기서 스케일링(Scaled)은 유사도 점수가 너무 커지는 것을 방지하기 위해 도입된 개념입니다.

  • 쿼리(Query): 주목하고자 하는 단어 (해석하고자 하는 단어)
  • 키(Keys): 모든 단어에 대한 유사도를 계산할 대상
  • 값(Values): 각 단어가 가지고 있는 정보

Multi-Head Attention

이는 여러 개의 Attention 메커니즘(Head)을 병렬로 사용하여 서로 다른 표현 공간에서 Attention을 계산합니다. 이를 통해 다양한 문맥 정보를 동시에 포착할 수 있습니다.

예시: 문장 번역

영어 문장 "The cat sat on the mat"를 프랑스어로 번역한다고 가정해봅시다. "sat"라는 단어에 대한 Attention을 계산할 때, Transformer는 "cat"과 "mat"이라는 단어에 높은 가중치를 부여하게 됩니다. 이는 "sat"의 의미를 해석하는 데 있어 "cat"과 "mat"이 중요한 문맥적 단서를 제공하기 때문입니다.

Transformer 모델이 문장을 처리할 때, 각 단어는 자신의 위치에 상관없이 문장 속 다른 모든 단어와의 관계를 고려하여 정보를 통합합니다. 이를 통해, 모델은 전체 문장의 문맥을 효과적으로 파악하고, 정확한 번역을 생성할 수 있게 됩니다.

결론

Transformer 모델의 Attention 메커니즘은 문장 내 단어들 사이의 복잡한 관계를 모델링하는 강력한 도구입니다. 이를 통해 모델은 문장의 의미를 보다 정확하게 이해하고, 언어 처리 작업에서 뛰어난 성능을 발휘할 수 있습니다.

 

U net도 인코더와 디코더로 이루어져 있다.

 

Image Segmentation ! - 문제가 생긴 부분을 컴퓨터가 다 분류해준다.

CNN - pexel

transformer - patch

skip Connection이 중요하다! - 원래 큰 픽셀의 공간 정보를 넘겨준다.
==residual connection

U-net = incoder + decoder + skip connection

u-net이 하고자 하는 것:
정보를 압축시키고 압축시켜 latent vector로 만들어 디코더를 통해 원래대로 돌아가기
segmentation과 noise cancelling을 한다.  anormaly!

skip connection을 통해 계속 정보를 받아온다.

 

728x90