반응형

2024/03/17 3

자연어 처리 python 실습 - 워드 임베딩 시각화

워드 임베딩 시각화 Introduction Chapter 4. 단어 임베딩 만들기 강의의 워드 임베딩 시각화 실습 강의입니다. 이전 실습에서처럼 (1) 단어 임베딩의 대표적인 방법인 Word2Vec을 활용하여 워드 임베딩을 직접 구축해보고, (2) 이번 실습에서는 구축한 워드 임베딩을 2차원으로 시각화하여 임베딩의 품질을 보다 정교하게 측정해보겠습니다. 이후 실습의 용이성을 위해 한국어 글꼴을 설치합니다! !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 1. 한국어 워드 임베딩 구축 워드 임베딩 구축 과정은 지난 실습에서 다뤘으므로, 이번 실습에서는 빠르게 구축을 진행해볼게요! 오늘 사용할 학습 데이터셋..

자연어 처리 python 실습 - 한국어 Word2Vec 임베딩 만들기

한국어 워드 임베딩 구축 Introduction Chapter 4. 단어 임베딩 만들기 강의의 첫 번째 실습 강의인 한국어 워드 임베딩 구축 강의입니다. 강의에서 배웠던 단어 임베딩의 대표적인 방법인 Word2Vec을 활용하여 영어와 한국어 워드 임베딩을 직접 구축해보고 임베딩의 품질을 평가합니다. 1. 영어 워드 임베딩 구축 한국어 워드 임베딩을 만들기 전에 영어 워드 임베딩을 구축하며 임베딩 구축에 대한 감을 익혀봅시다. 간단한 실습을 위해, scikit-learn 패키지에서 제공하는 20 newsgroup를 활용합니다. import pandas as pd import numpy as np from sklearn.datasets import fetch_20newsgroups dataset = fetc..

자연어 처리 python - 워드 임베딩 만들기 - GloVe

빈도기반 - 유의미한 단어의 변환이 있어도 유사도가 비슷하게 나온다. word2vec는 n을 설정하기 때문에 전체를 반영하지 못한다. 이럼 행렬이 엄청 커질거 같은데.... (중심)like 전체 등장 횟수중 (주변)deep과 등장한 횟수으로 1/3으로 봐서 동시 등장한 확률을 볼 수 있다. 결국 어떤 단어가 등장했을 때 어떤 단어가 등장할 확률을 구할 수 있다.

728x90
728x90