한국어 코퍼스 전처리 실습 Introduction Chapter 2. 한국어 데이터 전처리 강의의 한국어 코퍼스 전처리 실습 강의입니다. 일반적인 한국어 코퍼스 처리 과정인 (1) 코퍼스 수집, (2) 정제(Cleaning) 및 정규화(Normalization), (3) 토큰화(Tokenization)을 이해할 수 있도록 간단한 전처리 과정을 실습합니다. 1. 코퍼스 수집 한국어 코퍼스 전처리 실습을 위해, 뉴스 기사를 크롤링 해보겠습니다. 일반적으로 크롤링 코드를 작성하려면 많은 요소들을 고려해야하지만, 본 실습에서는 url 정보만 입력해주면 텍스트를 추출해주는 Newspaper3k 라이브러리를 사용하도록 하겠습니다. !pip install newspaper3k newspaper 라이브러리는 매우 많은..