인공지능/자연어 처리

한국어 데이터 전처리 - 서브워드 토큰화 (BPE 활용)

이게될까 2024. 3. 2. 23:55
728x90
728x90

목표 - 자연어처리에서 많이 사용되는 서브워드 토큰화 방식 및 BPE 알고리즘에 대해 알 수 있다.

문장 토큰화 - 다양성이 너무 늘어난다.

문자 토큰화 - 하나의 짧은 문장을 만드는데도 추론이 엄청나게 많아지게 되고, 토큰끼리의 관계가 없다.

기준 토큰화의 한계
서브워드 토큰화란

하나의 단어가 작은 의미의 단어 여러개로 분리하기!

서브워드 토큰화의 효과

신조어에 대응 가능!

BPE알고리즘 소개

예외 상황이 너무 많을 수 있다!

 

기존 알고리즘
BPE알고리즘

빈도수가 높다 - lo, we,er 등이 몇 번씩 나오냐, 빈도수 높은 것 통합하기

이렇게 되면 이 과정도 엄청 오래걸리겠는데....?

그 다음엔 low겠네

사전이 점점 늘어나는데....?

처음에 분류하는 시간이 쪼금 걸려보이는데....

적절한 알고리즘 횟수 정하는 것이 중요!

BPE 알고리즘 실습
WordPiece Tokenizer

이게 좀 더 합리적인 것 같기도 하고...?

강의 요약

728x90