인공지능/자연어 처리

자연어 처리 - 인공지능이 단어와 문장을 표현하는 방법

이게될까 2024. 1. 29. 23:29
728x90
728x90

아스키 코드로 바꾸면 안되나?

tokenization - 형태소 단위로 쪼갠다.
한글에선 띄어쓰기(공백)로 나누면 단어 단위라고 할 수 없다.

단어 토큰 표현 방법

그럼 index가 엄청나게 많겠네...?

문장 => 숫자의 나열로 변환

index가 적절한 표현인가?

token은 순서가 없다. 

one hot encoding

문장은 어떻게 표현할까?  => 행렬형식으로 ?

Bag of word

이건 순서가 뭉게진다... 

바로 순서 문제가 나옴
n-gram

이러면 경우의 수가 어마무시하게 늘어날 것 같은데....?

토큰 뭉치

라면 좋아 좋아 라면 싫어 알로에는 또 토큰 만들어서...?

n-gram

말뭉치 = 텍스트들의 뭉치를 토큰화해서 두개씩 뭉쳐서 등록

중요하지 않은 토큰(조사)이 빈도수가 높은 경우

조사의 숫자가 커서 중요해보인다. => 중요도를 고려한 표현!

TF-IDF

중요도를 고려해 문장을 표현하는 방식!

TF-IDF

천천히 보면 쉬운 수식이다. 중요한 토큰일 수록 높은 값을 가진다.

TF-TDF vector

중요한 벡터만 남게 된다.

모델 입력

 

728x90