인공지능/자연어 처리

자연어 처리 진행 순서 1 - 데이터 수집 및 전처리

이게될까 2024. 3. 2. 15:02
728x90
728x90

강의 목표 - 자연어 처리 Task를 수행하는 절차 중 데이터 수집, EDA 및 전처리에 해당하는 데이터 준비 과정에 대해 이해할 수 있다.

자연어 처리 진행 순서
문제 정의
데이터 수집 및 분석
잘 설명한다는 의미

실제 세계의 분포와 같은 데이터를 사용해야 한다.

다양한 빈도를 잘 포함해야 한다!

성별에 대한 데이터를 반반 씩 잘 수집해야 한다.

공개 데이터 셋의 문제

특정 환경에서만 작동하는 데이터일 경우가 있고, 오래된 데이터일 경우도 있다.

데이터를 더 추가하거나 필터를 한번 더 설정하여 필요한 데이터만 사용하는 등 작업이 필요하다.

장점 - 양이 엄청나다

단점 - 보급편향 -> 극단의 데이터만 있다. (중립적인 사람들은 말을 하지 않는다.)

데이터 분석이 필요하다.

라벨링을 해줘야 한다. 추가 작업 필요!

데이터 분포를 확인 후 데이터 수집을 추가로 진행할 수 있다.

학습에선 리소스가 많이 들기 때문에 수집 과정에서 최대한 미리 수정해야 한다.

데이터 수집, 분석 과정
데이터 전처리

데이터 전처리가 중요하다!

토큰 - 상황에 따라 다르다.

요약

 

728x90