반응형

2024/03/24 4

자연어 처리 문장 embedding 만들기 - Transformer

목표 - 다양한 분야에서 범용적으로 사용되는 Transformer의 작동 원리를 이해할 수 있다. 초기셀의 정보가 사라지는 것은 아직도 해결 X 이전셀의 계산이 끝나지 않으면 계속 기다려야 한다. 효율적인 모델 구조- 대규모 데이터에 대해 효율적으로 학습 가능해졌다. CNN은 거리를 뭉게기 때문에 어렵다. 순차적으로 들어오지 않기 때문에 순서 정보를 넣어주는 것이 필요하다. 위치마다 값이 다르다 -> 삼각함수 짝수 - sin 홀수 - cos 논문에서 d_model = 512 차원이다. 차원을 줄인다. 모든 단어에 대해 진행할 수 있다. RNN이 가진 병목을 가지는 것 처럼 보인다. 행렬을 통해 일괄로 처리한다. 역전파나 계속 진행되도 activation에 의해 0으로 줄어드는 것을 막아준다.

자연어 처리 문장 임베딩 만들기 - Seq2Seq

목표 - 초기 문장 생성 모델인 Seq2Seq의 작동 원리를 이해할 수 있다. 2014년에 등장한 모델이다. 가변적인 길이의 입출력이 필요했다. 같은 셀을 재귀적으로 사용하는 모델이다. 패딩토큰을 활용하여도 크게 개선하지 못했다. RNN기반의 고정 시퀀스를 사용하는 것을 개선하기 위해 나왔다. 가변적인 길이로 변환이 가능해졌다. 결국 이것도 Xn이 제일 쎄게 들어가긴 하겠네요 LSTM과 GRU가 그나마 Long Term를 해결해줬기 때문에 사용했다. eos가 나올때 까지 재귀적으로 반복한다. 입력은 단어가 아니라 임베딩 벡터이다!!! 오답간의 loss만 반영하고, 디코더 입력칸엔 정답 집어넣기! 인코더에 천개, 만개의 단어가 들어갈수록 정보 손실이 커진다. Transformer에 사용된다. 키 - 입력문..

자연어 처리 문장 임베딩 만들기 - 자연어 처리를 위한 모델 구조

강의목표 - 자연어 처리 작업 수행에 주로 사용되는 모델 구조들에 대해 간략히 알아보자 컴퓨터가 처리할 수 있게 한다 -> 임베딩 이전까지 단어가 주어졌을 때 다음에 올 단어의 확률 구하기 | = 조건부 확률 그럼 단어 스퀸스 자체의 확률은 엄청 작겠네 RNN 의 한계 해결 == Seq2Seq Seq2Seq도 RNN에서 벗어나지 않았다. == ELMo Attention의 등장 ! = Transformer

728x90
728x90