반응형

2024/03/07 3

임베딩이란? - 임베딩 구축 방법 2 - 분포 가설과 언어 모델

목표 - 분포 가설에 기반한 임베딩 구축 방법과 언어 모델 기반의 임베딩 구축 방법에 대해 이해하기 2번이랑 3번이랑 중요도가 살짝 애매하네유 주변 단어를 통해 뜻을 유추할 수 있다. 독립적이면 서로 관련 없는 단어로 볼 수 있고, 확률이 높다면 의미가 연결되어 있다고 볼 수 있다. CBOW - 중심 단어를 주변 단어를 통해 유추한다 SKIP gram - 중심 단어를 통해 주변 단어를 유추한다. 엄청나게 작은 확률로 등장할 것 입니다.. 문장이 길수록 확률이 점점 낮아지기 때문에 n-gram을 통해 제한하게 되면 확률이 많이 높아지게 된다. 근본적으론 빈도 기반이다.

임베딩이란 ? - 임베딩 구축 방법 1 - 단어의 출현 빈도

목표 - 단어의 출현 빈도가 중요하다는 가설에 기반한 임베딩 구축 방법에 대해 이해하자 주제가 비슷한 문서라면 출현 횟수가 비슷할 것이라는 전제가 깔려있다. 행렬이 너무 크기도 하고, 정보의 양도 적어 효율성이 너무 떨어진다. 중복 원소를 포함한다. 출현 횟수로 표현하는 것이다. 코퍼스 범위에서 문서 범위로 줄인 것이다. the 같은 의미가 적지만 출현 횟수가 높은 것들이 종요하다고 보일 수 있다. 빈도 이상의 무엇인가를 고려한다. 단어의 중요도와 비례한다. n이 엄청 커서 log를 씌워 스케일링하는 것이다. 여기서 로그는 10의 로그네요 단어 문서 행렬에 idf값이 들어가는 것이다. 유사도가 좀 더 높긴 하다. 맥락적 유사도를 반영하지 못하는 것이 큰거 같은데. 그리고 행렬도 아직도 너무 크고

728x90
728x90