728x90
728x90
목표 - 수집한 자연어 코퍼스를 정제하는 과정 및 정규화 과정에 대해 이해할 수 있다.

정규화 - 대문자 -> 소문자, 다양한 이모지 통일 등

노이즈 - 판단 필요하다! -> 완벽하게 없애는 것은 힘들기 때문에 합의점이 필요하다.

분포가 너무 적은 것들은 제거도 한다.

쓰임이 없는 단어, 비효율적인 단어들

모델의 응답시간도 단축 가능하다.
정보량이 많지 않다. -> 무언가를 분류하는데 도움이 되지 않는다.


없다면 pip nltk로 설치도 필요하다.

대명사, 관사들이 들어있다.
내가 필요하다고 생각하다면 리스트에서 제거해주면 된다.

단어가 많이 줄어든 것을 볼 수 있다.


조사는 붙어있는데 어떻게 제거할까?

특수 문자중에서도 웃음과 같은 것은 긍정으로 볼 수 있지 않나...?


빈도에 따라 중요성도 생각해 볼 수 있다.




모델은 숫자에 의해 판단한다!


불필요한 단어를 없앤다 -> 효율성 증가!!



과거형도 현재형으로 !

최근에 자주 사용되지는 않는다.




728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
한국어 데이터 전처리 - 서브워드 토큰화 (BPE 활용) (0) | 2024.03.02 |
---|---|
한국어 데이터 전처리 - 토큰화 Tokenization (0) | 2024.03.02 |
한국어 데이터 전처리 - 자연어 코퍼스 수집 (0) | 2024.03.02 |
자연어 처리 살펴보기 - Google colab 환경에서 Huggingface 기초 실습 (0) | 2024.03.02 |
자연어 처리 살펴보기 - 프레임워크 소개 (0) | 2024.03.02 |