반응형

2024/02/15 3

자연어 처리 - Autoregressive language modeling

"오늘 날씨 어때"가 3번 나왔으므로 30프로가 나온다. 한 글자만 다르더라도 다른 문장으로 판단한다. 조건부 확률을 활용하여 좀 더 짧은 문장에 대한 확률도 구할 수 있게 된다. P(오늘)P(날씨|오늘) 이렇게 볼 수 있다. 가장 높은 확률을 고른 후 이어 붙이고, 계속 확률 높은 것을 이어 붙인 다음에 끝내면 된다. 문장 분류도 두 문장 중 가장 높은 확률을 구하는 것이다.

자연어 처리 - 문장의 그럴듯함을 측정하는 방법

문장은 문법이 있기 때문에 단어의 나열로는 불가능하다. 컴퓨터는 문장의 그럴듯함을 확률을 통해 수치화한다. 자동 완성 - 오늘이라는 토큰이 주어졌을 때 어떤 단어가 나올지 확률을 안다면 이어 붙여 주면 된다. 오타 교정 - 어떤 문장이 주어졌을 때 확률이 낮은 단어나 조사를 높은 확률의 토큰으로 추천해준다. 모든 것이 낮은 확률을 -> 높은 확률로 변하거나 가장 높은 확률을 선택하는 것이다. 언어 모델 자체는 비지도 학습이다. 인풋을 그대로 다음을 예측하도록 하기 때문! RNN...?

자연어 처리 -CNN을 사용한 실습, self- attention 실습

import matplotlib.pyplot as plt plt.rc('font', family='NanumBarunGothic') from google.colab import drive drive.mount('/content/drive') base_path = "./drive/MyDrive/fastcampus/practice" import pandas as pd df = pd.read_csv(f"{base_path}/data/nsmc/ratings_train.txt", sep='\t') # pos, neg 비율 df['label'].value_counts() # missing doc sum(df['document'].isnull()) df = df[~df['document'].isnull()] sum(..

728x90
728x90