한국어는 교착어로 조사나 어미가 발달되어 있기 때문에 띄어쓰기 단위인 어절로 토큰화를 진행하면 의미적인 훼손이 일어난다.형태소를 추출하여 분리하는 작업이 선행되어야 의미를 이해하는데 도움이 된다.품사 태깅(POS)도 중요하다.ex) fly = 날다(동사), 파리(명사)오타와, 띄어쓰기가 없어도 형태소 분석기를 사용하면 잘 분류하나, 종류마다 성능이 다 다르다.정제 과정은 아래에서 확인 가능합니다.2024.03.05 - [인공지능/자연어 처리] - 한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습 한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습한국어 코퍼스 전처리 실습 Introduction Chapter 2. 한국어 데이터 전처리 강의의 한국어 코퍼스 전처리 실습 강의입니다..