자연어 처리 - CBOW 실습

인공지능/자연어 처리

이게될까 2024. 2. 13. 22:04

728x90

이전까지 이해가 안되었던 부분이기 때문에 실습을 잘 보도록... 하겠습니다...

긍정 부정의 비율도 1대 1이었다.

비어있는 5개는 제거했다.

첫번째 줄은 띄어쓰기 기준으로 토큰을 나누는 것이다.

유니크한 토큰들이 약 36만개가 나온다 -> 토큰 임베딩 테이블의 크기가 너무 커진다.

많이 사용되는 단어들을 남김으로 써 중요도를 따질 수 있다.

많이 나온 순서대로 정렬한다.

평균적으로 3번 나온다.

3개이상은 42635개이므로 이정도면 판단할 수 있다고 생각할 수 있다.

우리가 30만개의 단어를 무엇인지도 모르게 사용하게 된다. -> UNK

사각형 모향을 맞추기 위한 -> PAD

문장 하나를 받으면 숫자로 바꿔주는 것을 만든다.

맥스패딩이 50개까지면 충문하다.

그럼 이렇게 된다.

빈 부분은 전부 패딩으로 0이 되게 된다.

TRAIN과 VALIDATION을 0.8 대 0.2로 나눈다.

일단 너무 많기 때문에 10프로로 줄인다.

제대로 확인하려면 좀 더 에폭이 컸어야 했다.

에폭을 늘리니 VALIDATION이 오히려 늘었다.

자연어 처리 -CNN을 사용한 실습, self- attention 실습 (1)	2024.02.15
자연어 처리 - RN 실습 (0)	2024.02.13
자연어 처리 - self attention으로 문장 표현하기 (0)	2024.02.06
자연어 처리 - CNN, RNN으로 문장 표현하기 (0)	2024.02.06
자연어 처리 - RN로 문장 표현하기 (0)	2024.02.05

인공지능, 자율주행에 관심있는 공대생의 일기장...?

공대생 도전 일지