인공지능/자연어 처리

한국어 데이터 전처리 - 토큰화 Tokenization

이게될까 2024. 3. 2. 22:50
728x90
728x90

목표 - 자연어 코퍼스를 최소 의미 단위인 토큰 단위로 나누는 토큰화 작업을 이해할 수 있다.

토큰화란

띄어쓰기 단위로 간단하게 토큰화할 수 있다.

토큰화 과정의 필요성

내가 문장 하나를 기계가 이해할 수 있는 수치화 하는 것

문장 하나를 주는 것 보다 단어 단위로 주면서 순서까지 주면 이해하기가 더 쉽다.

텍스트를 단어 수준으로 이해할 수 있게 해 준다.

식당과 메뉴를 연관 지어 이해할 수도 있다.

단어 단위로 나누지 않는다면 '압구정에 어떤 식당이 있나요?'를 이해하지 못할 것이다.

글자 단위로 설정하면 모델의 이해력을 오히려 제한할 수 있다.

글자에는 의미가 없기 때문!

적당한 토큰 단위가 필요하다.

토큰화 방법

4가지가 있다.

문장 토큰화

문장 분류!

단어 토큰화

교착어 - 언어와 접사를 통해 언어가 이루어짐

신조어가 생긴다! - 사전에 없으면 처리를 못한다, 사전이 커지면 추론 시간이 점점 늘어난다.

사라지는 단어, 생기는 단어가 계속 있다.

출력 빈도가 낮은 것은 UNK로 사용해 버리는 방법도 있다.

문자 토큰화
문자 토큰화 한계점

글자 단위라면 토큰 간의 관계가 거의 없다고 볼 수 있다.

서브워드 토큰화

교착어의 한계를 계선 가능

토큰화에서 고려할 사항
강의 요약

 

728x90