인공지능/자연어 처리

임베딩이란 ? - 임베딩 구축 방법 1 - 단어의 출현 빈도

이게될까 2024. 3. 7. 00:45
728x90
728x90

목표 - 단어의 출현 빈도가 중요하다는 가설에 기반한 임베딩 구축 방법에 대해 이해하자

임베딩 구축 방법

주제가 비슷한 문서라면 출현 횟수가 비슷할 것이라는 전제가 깔려있다.

 

원 핫 인코딩
원 핫 인코딩 구현 방식

 

원핫 인코딩 한계

행렬이 너무 크기도 하고, 정보의 양도 적어 효율성이 너무 떨어진다.

유사도 표현 X == 정보가 없다.

 

Bag of words

중복 원소를 포함한다. 출현 횟수로 표현하는 것이다.

코퍼스 범위에서 문서 범위로 줄인 것이다.

 

BOW 실습

 

BOW의 한계

the 같은 의미가 적지만 출현 횟수가 높은 것들이 종요하다고 보일 수 있다.

 

TF - IDF

빈도 이상의 무엇인가를 고려한다.

 

TF- IDF 작동 방법

단어의 중요도와 비례한다.

n이 엄청 커서 log를 씌워 스케일링하는 것이다.

여기서 로그는 10의 로그네요

 

TF -IDF 구현 실습

단어 문서 행렬에 idf값이 들어가는 것이다.

 

과현 그렇게 유용한가?

유사도가 좀 더 높긴 하다.

 

TF- IDF 방식의 장 단점

맥락적 유사도를 반영하지 못하는 것이 큰거 같은데. 그리고 행렬도 아직도 너무 크고

 

강의 요약

 

728x90