한국어 데이터 전처리 - 정제(Cleaning) 및 정규화(Normalization)

인공지능/자연어 처리

한국어 데이터 전처리 - 정제(Cleaning) 및 정규화(Normalization)

이게될까 2024. 3. 2. 21:54

728x90

목표 - 수집한 자연어 코퍼스를 정제하는 과정 및 정규화 과정에 대해 이해할 수 있다.

정규화 - 대문자 -> 소문자, 다양한 이모지 통일 등

노이즈 - 판단 필요하다! -> 완벽하게 없애는 것은 힘들기 때문에 합의점이 필요하다.

분포가 너무 적은 것들은 제거도 한다.

쓰임이 없는 단어, 비효율적인 단어들

모델의 응답시간도 단축 가능하다.

정보량이 많지 않다. -> 무언가를 분류하는데 도움이 되지 않는다.

없다면 pip nltk로 설치도 필요하다.

대명사, 관사들이 들어있다.

내가 필요하다고 생각하다면 리스트에서 제거해주면 된다.

단어가 많이 줄어든 것을 볼 수 있다.

조사는 붙어있는데 어떻게 제거할까?

특수 문자중에서도 웃음과 같은 것은 긍정으로 볼 수 있지 않나...?

빈도에 따라 중요성도 생각해 볼 수 있다.

모델은 숫자에 의해 판단한다!

불필요한 단어를 없앤다 -> 효율성 증가!!

과거형도 현재형으로 !

최근에 자주 사용되지는 않는다.

저작자표시

'인공지능 > 자연어 처리' 카테고리의 다른 글

한국어 데이터 전처리 - 서브워드 토큰화 (BPE 활용) (0)	2024.03.02
한국어 데이터 전처리 - 토큰화 Tokenization (0)	2024.03.02
한국어 데이터 전처리 - 자연어 코퍼스 수집 (0)	2024.03.02
자연어 처리 살펴보기 - Google colab 환경에서 Huggingface 기초 실습 (0)	2024.03.02
자연어 처리 살펴보기 - 프레임워크 소개 (0)	2024.03.02

현재글한국어 데이터 전처리 - 정제(Cleaning) 및 정규화(Normalization)

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

공대생 도전 일지