목표 - 자연어처리에서 많이 사용되는 서브워드 토큰화 방식 및 BPE 알고리즘에 대해 알 수 있다. 문장 토큰화 - 다양성이 너무 늘어난다. 문자 토큰화 - 하나의 짧은 문장을 만드는데도 추론이 엄청나게 많아지게 되고, 토큰끼리의 관계가 없다. 하나의 단어가 작은 의미의 단어 여러개로 분리하기! 신조어에 대응 가능! 예외 상황이 너무 많을 수 있다! 빈도수가 높다 - lo, we,er 등이 몇 번씩 나오냐, 빈도수 높은 것 통합하기 이렇게 되면 이 과정도 엄청 오래걸리겠는데....? 그 다음엔 low겠네 사전이 점점 늘어나는데....? 처음에 분류하는 시간이 쪼금 걸려보이는데.... 적절한 알고리즘 횟수 정하는 것이 중요! 이게 좀 더 합리적인 것 같기도 하고...?