인공지능/자연어 처리

자연어 처리 문장 embedding 만들기 - Transformer

이게될까 2024. 3. 24. 22:40
728x90
728x90

목표 - 다양한 분야에서 범용적으로 사용되는 Transformer의 작동 원리를 이해할 수 있다.

Transformer란?

 

Transformer 개요

초기셀의 정보가 사라지는 것은 아직도 해결 X

이전셀의 계산이 끝나지 않으면 계속 기다려야 한다.

효율적인 모델 구조- 대규모 데이터에 대해 효율적으로 학습 가능해졌다.

 

Attention 메커니즘

 

관련 연구

CNN은 거리를 뭉게기 때문에 어렵다.

 

Transformer 모델 구조

 

positional Encording

순차적으로 들어오지 않기 때문에 순서 정보를 넣어주는 것이 필요하다.

위치마다 값이 다르다 -> 삼각함수

짝수 - sin

홀수 - cos

논문에서 d_model = 512 차원이다.

 

Transformer의 attention구조

 

Self attention

 

Self attention 동작 원리

차원을 줄인다.

모든 단어에 대해 진행할 수 있다.

RNN이 가진 병목을 가지는 것 처럼 보인다.

행렬을 통해 일괄로 처리한다.

 

Encorder

역전파나 계속 진행되도 activation에 의해 0으로 줄어드는 것을 막아준다.

 

728x90