인공지능/자연어 처리

한국어 데이터 전처리 - 한국어 형태소 분석 (KoNLPy, Mecab활용)

이게될까 2024. 3. 5. 23:12
728x90
728x90

목표 - 다양한 한국어 형태소 분석기를 포함하는 KoNLPy를 활용하여 한국어 형태소 분석 과정을 이해할 수 있다.

한국어의 특성
형태소 분석이란?
형태소 분석이 필요한 이유
품사 태깅(PoS)이 필요한 이유
한국어 형태소 분석 방법
KoNLPy 활용 방법 예시

일본어도 한국어와 같이 교착어의 특성을 가진다!

어떤 특성이 가장 잘 맞을지 고르면 된다.

품사 태깅

작업에 맞는 품사 분류를 고르면 된다.

한국어 토큰화 과정

정제과정 속에서의 부작용, 규칙 기반을 통한 분리에서 오류가 나기 때문이다.

 

728x90