반응형

2024/03/13 3

자연어 처리 python - 워드 임베딩 만들기 - Word2Vec(CBOW, Skip-gram)

희소 벡터의 문제를 해결! 기본적인 분포 가설이다. CBOW - 주변 단어를 보고 학습 단어를 배우겠다. skip -gram - 중심 단어를 보고 주변 단어를 배우겠다. 토큰화를 잘 하기 위해 강아지가 -> 강아지 학습데이터도 늘리고, 관계도 만들 수 있다. 딥러닝이 아니라 하나의 앝은 레이어를 가진 머신러닝이라고 볼 수 있다. 단순한 원 핫 벡터를 사용한다. 인풋 레이어에서 프로젝션 레이어로 어떻게 메핑할까가 중요하다. 여기선 강아지를 보고 작고, 귀여운, 문, 앞에가 나와야 한다. 학습기회가 많아짐으로써 조정, 오차 잡는 것을 따라잡을 수 없다. 중의성, 모호성을 많이 녹여내진 못했다. 학습데이터에 없다면 학습하기 어렵다. 새로운 단어가 생기면 재 학습해야 한다. 빈도가 적으면 단어를 확실하게 학습하..

자연어 처리 - 워드 임베딩 만들기 - 워드 임베딩이란?

임베딩을 하는 과정도 결국 인코딩의 하나긴 하네요 강아지에 1이 왜 두갠지 모르겠지만 하나만 1 이어야 할 텐데... 모델은 그 많은 사전 중에 하나를 찾아야 하기 때문에 효율이 너무 감소 단어의 중의성, 모호성 등 어렵게 만드는 요소들을 표현하지 못한다. 여기선 5차원으로 표현했네요 여기에 중의성과 모호성도 포함되어 있습니다. 일반화 - 모호성과 중의성을 포함한다. 행렬을 축소하는 곳에서 많이 사용되는 방식이다. 학습되기 전에는 랜덤으로 선택하긴 하지만 학습하면서 점차 위치를 잡게 된다. 임베딩 = 단어 길이 * 내가 원하는 차원 개수 20개가 안되면 패딩을 채워 넣는다.

자연어 처리 python 실습 - BERT 모델의 임베딩 간 유사도 측정

BERT 모델의 임베딩 간 유사도 측정 Introduction Chapter 3. 컴퓨터는 자연어를 어떻게 이해하는가 강의의 BERT 모델의 임베딩 간 유사도 측정 실습 강의입니다. 강의에서 배웠던 여러 가설 기반 임베딩을 직접 구축해보고, 구축한 임베딩을 활용하여 문장 간 유사도를 계산합니다. 추가로, 구축 방법 별 유사도 경향을 분석하여 임베딩에 대한 이해도를 높입니다. 1. 문서 집합 구축 테스트할 다양한 문장(문서)들에 대한 문서 집합을 구축합니다. 자연어의 특성인 유사성과 모호성을 잘 설명할 수 있도록 문장 예시들을 구성합니다. 의미가 유사한 문장 간 유사도 계산 (조사 생략): (sen_1, sen_2) 의미가 유사한 문장 간 유사도 계산 (순서 변경): (sen_1, sen_3) 문장 내 단..

728x90
728x90