인공지능/자연어 처리

임베딩이란? - 임베딩 구축 방법 2 - 분포 가설과 언어 모델

이게될까 2024. 3. 7. 01:50
728x90
728x90

목표 - 분포 가설에 기반한 임베딩 구축 방법과 언어 모델 기반의 임베딩 구축 방법에 대해 이해하기

 

임베딩 구축 방법

2번이랑 3번이랑 중요도가 살짝 애매하네유

 

어떤 단어가 같이 쓰였는가

주변 단어를 통해 뜻을 유추할 수 있다.

PMI

독립적이면 서로 관련 없는 단어로 볼 수 있고, 확률이 높다면 의미가 연결되어 있다고 볼 수 있다.

 

CBOW - 중심 단어를 주변 단어를 통해 유추한다

SKIP gram - 중심 단어를 통해 주변 단어를 유추한다.

 

 

단어가 어떤 순서로 쓰였는가

 

통계 기반 언어 모델

 

엄청나게 작은 확률로 등장할 것 입니다..

문장이 길수록 확률이 점점 낮아지기 때문에 n-gram을 통해 제한하게 되면 확률이 많이 높아지게 된다.

근본적으론 빈도 기반이다.

 

 

임베딩 구축 방법 요약

 

강의 요약

 

728x90