반응형

2024/03/01 4

자연어 처리 python 실습 - Neural Language model 구현

# Neural Language Modeling #네이버 영화 댓글 데이터를 이용해 Neural language model을 구현해보고, 구현한 Neural language model로 댓글 생성을 해본다. from google.colab import drive drive.mount('/content/drive') base_path = "./drive/MyDrive/fastcampus/practice" import pandas as pd df = pd.read_csv(f"{base_path}/data/nsmc/ratings_train.txt", sep='\t') # pos, neg 비율 df['label'].value_counts() 0 75173 1 74827 Name: label, dtype: int..

자연어 처리 python 실습 - N gram language model

# N-gram Language Modeling 작은 샘플들을 활용해 N-gram language modeling을 구현해보고, 구현한 N-gram language model로 자동 완성 기능을 이해해보자 data corpus = ["오늘 날씨 어때", "오늘 날씨 어때", "오늘 날씨 어때", "오늘 축구 경기", "오늘 경기 결과", "오늘 경기 결과", "내일 날씨", "내일 축구 경기", "내일 축구 경기", "축구 일정", ] 문장의 빈도를 통한 확률 제대로 확인! # tokenization vocabs = set() for sample in corpus: for token in sample.split(): vocabs.add(token) vocabs = list(vocabs) vocabs 출력..

자연어 처리 python - 최신 Language model들과 활용법

objective = 모델이 학습하려고 하는 바 MLM = 컨텍스트들이 마스킹 되어 있다. 마스킹 된 것을 예측한다! 한 단어를 예측할 때 주변을 다 보고 예측한다. NSP = 이전문장과 다음 문장이 이어지면 1, 아니면 0으로 풀게 된다. BERT = MLM + NSP 문장에 대한 특징을 잘 추출, 언어를 잘 이해하게 되어 파인튜닝시 잘 이해한다. 실무적으로 아직 잘 사용되고 있다. GPT - 1 = 단방향! 미래는 볼 수 없다. 고전적인 학습 방법을 이용한다. RoBERTa : Long sequence!! GPT - 2: 1버전 보다 더 커졌다. T5 - 입력에 대해 토큰들로 치환하여 디코더에서 치환된 영역이 다시 생성된다! 모든 일을 자연어로 풀게한다-> 요즘의 트렌드 MTDNN - MS ELECT..

자연어 처리 python - skip thought vector

유사한 임베딩은 가까이 유사하지 않은 것은 다른 곳을 향하게 된다. sentence embedding을 잘 만드는 것으로 좋은 모델을 만들 수 있다. 어휘는 유사하지만 완전히 다른 의미와 완전히 다른 어휘와 동일한 의미! GRU도 RNN의 일종이다. 여러개 문장을 주어주고, 그 중 가장 알맞는 문장을 고르도록 학습하게 된다! 여기선 '오늘 날씨는 맑습니다'가 학습하면서 나올 확률이 높아지고, 출력하게 된다.

728x90
728x90