인공지능/공부

생성형 인공지능 4주차 Transformer 1차시 - 워드 임베딩 word embedding

이게될까 2024. 3. 26. 15:12
728x90
728x90

워드 임베딩 - 단어의 벡터화

tf- idf도 나오고 tf도 나오고 다 하겠네요

고차원 백터 공간 - 다차원으로 양이 많다. High demensional vector space

워드 임베딩 == 백터를 표현하는데 중요한 역할, 단어간의 의미 관계

Dimensionality - 차원을 축소시켜 의미를 함축시킨다.

representation learning은 중요하다!

One-Hot Encoding

그저 그 Index에 1을 표현해주는 것일뿐

차원이 엄청나게 커지지만 의미를 크게 갖지 못한다.

 

Bag-of-Words

단어의 빈도를 벡터화 -> 어순과 문맥을 다 먹어버려서 다 섞여있어도 똑같은 빈도로 존재하면 똑같이 볼 것이다.

 

TF-IDF

중요한 단어를 잡아내는 역할을 할 수 있지만 이것도 결국 문맥은 다 사라진다.
idf - 적게 나오지만 중요한 단어
tf - 그냥 많이 나오는 단어

 

Word2Vec

신경망 구조를 사용한다.

 

 

GloVe

 

FastText

 

 

결국 이 모든 방법들이 문맥을 확인하진 않는다.

 

이 방법이 많이 사용되고 있다.

728x90