728x90
728x90
목표 - 자연어에서 단어의 의미와 단어 간 유사성과 모호성에 대해 이해할 수 있습니다.
백터화?
배, 말과 같은 단어들을 벡터에 모든 의미를 담기 어려울 수 있다.
통계적으로 많이 사용되는 뜻은 있겠지만 일단 배의 의미는 10개나 된다.
모델 입장에서 이러한 단어들의 관계 파악은 너무 힘들어지는 것이다.
동음이의어를 통한 데이터 증강도 가능하다!
데이터양이 적었을 경우 이러한 시도들이 많았다.
요즘 데이터가 많아서 데이터를 때려 박아 해소하기도 한다.
단어의 계층과 의미를 한눈에 알 수 있게 해 준다.
계속 업데이트가 필요하다!, 맥락적으로 이해해야 하는 것들을 표현할 수 없다.
좋은 성능을 위해서 레이블이 좋아야 한다.
728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
임베딩이란 ? - 임베딩 구축 방법 1 - 단어의 출현 빈도 (0) | 2024.03.07 |
---|---|
자연어 처리 python - 컴퓨터는 자연어를 어떻게 이해하는가? (0) | 2024.03.06 |
한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습 (1) | 2024.03.06 |
한국어 데이터 전처리 - 한국어 형태소 분석 (KoNLPy, Mecab활용) (0) | 2024.03.05 |
한국어 데이터 전처리 - 서브워드 토큰화 (BPE 활용) (0) | 2024.03.02 |