인공지능/자연어 처리

자연어 처리 - CBOW 실습

이게될까 2024. 2. 13. 22:04
728x90
728x90

이전까지 이해가 안되었던 부분이기 때문에 실습을 잘 보도록... 하겠습니다...

긍정 부정의 비율도 1대 1이었다.

비어있는 5개는 제거했다.

첫번째 줄은 띄어쓰기 기준으로 토큰을 나누는 것이다.

유니크한 토큰들이 약 36만개가 나온다 -> 토큰 임베딩 테이블의 크기가 너무 커진다.

많이 사용되는 단어들을 남김으로 써 중요도를 따질 수 있다.

많이 나온 순서대로 정렬한다.

대부분은 굉장히 숫자가 적은 것을 알 수 있다.

평균적으로 3번 나온다.

3개이상은 42635개이므로 이정도면 판단할 수 있다고 생각할 수 있다.

우리가 30만개의 단어를 무엇인지도 모르게 사용하게 된다. -> UNK

사각형 모향을 맞추기 위한 -> PAD

문장 하나를 받으면 숫자로 바꿔주는 것을 만든다.

맥스패딩이 50개까지면 충문하다.

그럼 이렇게 된다.

빈 부분은 전부 패딩으로 0이 되게 된다.

TRAIN과 VALIDATION을 0.8 대 0.2로 나눈다.

일단 너무 많기 때문에 10프로로 줄인다.

제대로 확인하려면 좀 더 에폭이 컸어야 했다.

에폭을 늘리니 VALIDATION이 오히려 늘었다.

 

728x90