인공지능/자연어 처리

컴퓨터는 자연어를 어떻게 이해하는가? - 자연어 특성

이게될까 2024. 3. 6. 02:11
728x90
728x90

컴퓨터는 자연어를 어떻게 이해하는가? (임베딩이란?)

목표 - 자연어에서 단어의 의미와 단어 간 유사성과 모호성에 대해 이해할 수 있습니다.

자연어의 특성

백터화?

단어의 유사성과 모호성

배, 말과 같은 단어들을 벡터에 모든 의미를 담기 어려울 수 있다.

통계적으로 많이 사용되는 뜻은 있겠지만 일단 배의 의미는 10개나 된다.

모델 입장에서 이러한 단어들의 관계 파악은 너무 힘들어지는 것이다.

 

단어의 유형
동형어
동형어
다의어
다의어
동의어
동의어
상위어와 하위어

동음이의어를 통한 데이터 증강도 가능하다!

언어의 모호성 해소

데이터양이 적었을 경우 이러한 시도들이 많았다.

요즘 데이터가 많아서 데이터를 때려 박아 해소하기도 한다.

시소러스

단어의 계층과 의미를 한눈에 알 수 있게 해 준다.

계속 업데이트가 필요하다!, 맥락적으로 이해해야 하는 것들을 표현할 수 없다.

좋은 성능을 위해서 레이블이 좋아야 한다.

강의 요약

728x90