728x90
728x90
강의 목표 - 자연어 처리 Task를 수행하는 절차 중 데이터 수집, EDA 및 전처리에 해당하는 데이터 준비 과정에 대해 이해할 수 있다.
실제 세계의 분포와 같은 데이터를 사용해야 한다.
다양한 빈도를 잘 포함해야 한다!
성별에 대한 데이터를 반반 씩 잘 수집해야 한다.
특정 환경에서만 작동하는 데이터일 경우가 있고, 오래된 데이터일 경우도 있다.
데이터를 더 추가하거나 필터를 한번 더 설정하여 필요한 데이터만 사용하는 등 작업이 필요하다.
장점 - 양이 엄청나다
단점 - 보급편향 -> 극단의 데이터만 있다. (중립적인 사람들은 말을 하지 않는다.)
데이터 분석이 필요하다.
라벨링을 해줘야 한다. 추가 작업 필요!
데이터 분포를 확인 후 데이터 수집을 추가로 진행할 수 있다.
학습에선 리소스가 많이 들기 때문에 수집 과정에서 최대한 미리 수정해야 한다.
데이터 전처리가 중요하다!
토큰 - 상황에 따라 다르다.
728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
자연어 처리 살펴보기 - 프레임워크 소개 (0) | 2024.03.02 |
---|---|
자연어 처리 진행 순서 2 - 모델링, 모델 학습 및 평가 (0) | 2024.03.02 |
자연어 처리 살펴보기 - 다양한 자연어 처리 Task 소개 (1) | 2024.03.02 |
자연어 처리 살펴보기 - 개요 (0) | 2024.03.02 |
자연어 처리 python 실습 - Neural Language model 구현 (3) | 2024.03.01 |