자연어 처리 진행 순서 1 - 데이터 수집 및 전처리

인공지능/자연어 처리

이게될까 2024. 3. 2. 15:02

728x90

강의 목표 - 자연어 처리 Task를 수행하는 절차 중 데이터 수집, EDA 및 전처리에 해당하는 데이터 준비 과정에 대해 이해할 수 있다.

실제 세계의 분포와 같은 데이터를 사용해야 한다.

다양한 빈도를 잘 포함해야 한다!

성별에 대한 데이터를 반반 씩 잘 수집해야 한다.

특정 환경에서만 작동하는 데이터일 경우가 있고, 오래된 데이터일 경우도 있다.

데이터를 더 추가하거나 필터를 한번 더 설정하여 필요한 데이터만 사용하는 등 작업이 필요하다.

장점 - 양이 엄청나다

단점 - 보급편향 -> 극단의 데이터만 있다. (중립적인 사람들은 말을 하지 않는다.)

데이터 분석이 필요하다.

라벨링을 해줘야 한다. 추가 작업 필요!

데이터 분포를 확인 후 데이터 수집을 추가로 진행할 수 있다.

학습에선 리소스가 많이 들기 때문에 수집 과정에서 최대한 미리 수정해야 한다.

데이터 전처리가 중요하다!

토큰 - 상황에 따라 다르다.

자연어 처리 살펴보기 - 프레임워크 소개 (0)	2024.03.02
자연어 처리 진행 순서 2 - 모델링, 모델 학습 및 평가 (0)	2024.03.02
자연어 처리 살펴보기 - 다양한 자연어 처리 Task 소개 (1)	2024.03.02
자연어 처리 살펴보기 - 개요 (0)	2024.03.02
자연어 처리 python 실습 - Neural Language model 구현 (3)	2024.03.01

NLP, AI, XAI에 관심있는 공대생의 일기장...?

공대생 도전 일지