인공지능/자연어 처리

한국어 데이터 전처리 - 자연어 코퍼스 수집

이게될까 2024. 3. 2. 20:27
728x90
728x90

한국어 데이터 전처리

강의 목표 : 웹 상에 공개된 한국어 자연어 코퍼스들을 소개하고 활용하는 방법들을 이해할 수 있다.

자연어 코퍼스란
자연어 코퍼스 수집 과정

내가 필요한 데이터의 종류를 잘 찾아야 한다.

어느 정도의 코퍼스를 수집해야 할까?

무한히 많은 코퍼스가 항상 좋은 것도 아니다.

번역 모델 - 모델 구조에 2만개의 학습 데이터를 넣었을 때 잘 된다는 논문을 보고 2만개라고 정할 수 있다.

레이블 - 데이터의 패턴

모델이 커지면 커질수록 데이터 필요 커짐

쉬운 작업에 큰 모델은 필요 없다!

데이터에 비해 모델이 너무 크다! 모델이 크려면 학습 데이터도 많아야 한다.

23년 현재의 어뷰징 컨텐츠를 거르고 싶은데 20년도 어뷰징 관련 데이터라면 지금 어뷰징은 못 잡을 확률이 크다.

데이터 분석 과정이 필수다.

중립적인 의견은 표출하지 않아 편향적인 데이터가 많다.

최근의 일을 다뤄준다!

내가 만든다? -> 리소스 과다 필요 

트롤러들이 존재하기도 한다!

자동 생성 코퍼스가 있다면 이미 내가 만드려는 모델이 있는거 아닌가...?

원본문장 -> 소스문장으로 번역하는 모델을 만들 때 소스문장이 더 많다면 소스문장을 원본 문장으로 번역한 것을 다시 학습에 사용하기

강의 요약

 

728x90