728x90
728x90
목표 - 자연어 코퍼스를 최소 의미 단위인 토큰 단위로 나누는 토큰화 작업을 이해할 수 있다.
띄어쓰기 단위로 간단하게 토큰화할 수 있다.
내가 문장 하나를 기계가 이해할 수 있는 수치화 하는 것
문장 하나를 주는 것 보다 단어 단위로 주면서 순서까지 주면 이해하기가 더 쉽다.
텍스트를 단어 수준으로 이해할 수 있게 해 준다.
식당과 메뉴를 연관 지어 이해할 수도 있다.
단어 단위로 나누지 않는다면 '압구정에 어떤 식당이 있나요?'를 이해하지 못할 것이다.
글자 단위로 설정하면 모델의 이해력을 오히려 제한할 수 있다.
글자에는 의미가 없기 때문!
적당한 토큰 단위가 필요하다.
4가지가 있다.
문장 분류!
교착어 - 언어와 접사를 통해 언어가 이루어짐
신조어가 생긴다! - 사전에 없으면 처리를 못한다, 사전이 커지면 추론 시간이 점점 늘어난다.
사라지는 단어, 생기는 단어가 계속 있다.
출력 빈도가 낮은 것은 UNK로 사용해 버리는 방법도 있다.
글자 단위라면 토큰 간의 관계가 거의 없다고 볼 수 있다.
교착어의 한계를 계선 가능
728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
한국어 데이터 전처리 - 한국어 형태소 분석 (KoNLPy, Mecab활용) (0) | 2024.03.05 |
---|---|
한국어 데이터 전처리 - 서브워드 토큰화 (BPE 활용) (0) | 2024.03.02 |
한국어 데이터 전처리 - 정제(Cleaning) 및 정규화(Normalization) (0) | 2024.03.02 |
한국어 데이터 전처리 - 자연어 코퍼스 수집 (0) | 2024.03.02 |
자연어 처리 살펴보기 - Google colab 환경에서 Huggingface 기초 실습 (0) | 2024.03.02 |