728x90
728x90
목표 - 자연어처리에서 많이 사용되는 서브워드 토큰화 방식 및 BPE 알고리즘에 대해 알 수 있다.
문장 토큰화 - 다양성이 너무 늘어난다.
문자 토큰화 - 하나의 짧은 문장을 만드는데도 추론이 엄청나게 많아지게 되고, 토큰끼리의 관계가 없다.
하나의 단어가 작은 의미의 단어 여러개로 분리하기!
신조어에 대응 가능!
예외 상황이 너무 많을 수 있다!
빈도수가 높다 - lo, we,er 등이 몇 번씩 나오냐, 빈도수 높은 것 통합하기
이렇게 되면 이 과정도 엄청 오래걸리겠는데....?
그 다음엔 low겠네
사전이 점점 늘어나는데....?
처음에 분류하는 시간이 쪼금 걸려보이는데....
적절한 알고리즘 횟수 정하는 것이 중요!
이게 좀 더 합리적인 것 같기도 하고...?
728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습 (1) | 2024.03.06 |
---|---|
한국어 데이터 전처리 - 한국어 형태소 분석 (KoNLPy, Mecab활용) (0) | 2024.03.05 |
한국어 데이터 전처리 - 토큰화 Tokenization (0) | 2024.03.02 |
한국어 데이터 전처리 - 정제(Cleaning) 및 정규화(Normalization) (0) | 2024.03.02 |
한국어 데이터 전처리 - 자연어 코퍼스 수집 (0) | 2024.03.02 |