인공지능/자연어 처리

자연어 처리 - 워드 임베딩 만들기 - 워드 임베딩이란?

이게될까 2024. 3. 13. 18:30
728x90
728x90

 

word embedding이란?
인코딩이란?

임베딩을 하는 과정도 결국 인코딩의 하나긴 하네요

희소 표현

강아지에 1이 왜 두갠지 모르겠지만 하나만 1 이어야 할 텐데...

희소 벡터의 문제점

모델은 그 많은 사전 중에 하나를 찾아야 하기 때문에 효율이 너무 감소

단어의 중의성, 모호성 등 어렵게 만드는 요소들을 표현하지 못한다.

 

밀집 표현

여기선 5차원으로 표현했네요

여기에 중의성과 모호성도 포함되어 있습니다.

밀집 표현의 장점

일반화 - 모호성과 중의성을 포함한다.

 

워드 임베딩
차원 축소
잠재 의미 분석

행렬을 축소하는 곳에서 많이 사용되는 방식이다.

 

간단한 워드 임베딩 실습

학습되기 전에는 랜덤으로 선택하긴 하지만 학습하면서 점차 위치를 잡게 된다.

임베딩 = 단어 길이 * 내가 원하는 차원 개수

20개가 안되면 패딩을 채워 넣는다.

 

728x90