728x90
728x90
임베딩을 하는 과정도 결국 인코딩의 하나긴 하네요
강아지에 1이 왜 두갠지 모르겠지만 하나만 1 이어야 할 텐데...
모델은 그 많은 사전 중에 하나를 찾아야 하기 때문에 효율이 너무 감소
단어의 중의성, 모호성 등 어렵게 만드는 요소들을 표현하지 못한다.
여기선 5차원으로 표현했네요
여기에 중의성과 모호성도 포함되어 있습니다.
일반화 - 모호성과 중의성을 포함한다.
행렬을 축소하는 곳에서 많이 사용되는 방식이다.
학습되기 전에는 랜덤으로 선택하긴 하지만 학습하면서 점차 위치를 잡게 된다.
임베딩 = 단어 길이 * 내가 원하는 차원 개수
20개가 안되면 패딩을 채워 넣는다.
728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
자연어 처리 python - 워드 임베딩 만들기 - Fast Text (0) | 2024.03.16 |
---|---|
자연어 처리 python - 워드 임베딩 만들기 - Word2Vec(CBOW, Skip-gram) (0) | 2024.03.13 |
자연어 처리 python 실습 - BERT 모델의 임베딩 간 유사도 측정 (0) | 2024.03.13 |
임베딩이란 ? - 임베딩 간 유사도 계산 (0) | 2024.03.07 |
임베딩이란? - 임베딩 구축 방법 2 - 분포 가설과 언어 모델 (0) | 2024.03.07 |