언어 모델은 다음 단어가 무엇이 나올지 맞춘다. 문맥을 보고 마스킹 된 단어 맞추기 단어 예측하기 기존 단어들이 input이 들어갔을 때 가장 높은 확률을 가지는 단어를 가지고 온다. 이전을 보고, 다음 단어를 구하는 것을 반복한다 == auto regressive n-gram 앞의 문맥을 버리고, n개의 단어까지만 확인해서 그 확률이 어떻게 되는지 확인한다. RNN이전의 모든 input을 고려할 수 있다. 복잡도는 낮을 수록 좋다!RNN은 n-gram 모델보다 복잡도가 낮으므로 좋다! 이전의 언어 모델들은 각각 특징을 잡아서 다른일을 했는데 이제는 이 모든일을 하나의 모델이 다 할 수 있다. Open AI의 GPT는 많은 데이터로 pre-training (사전학습,언어적 체계를 이해, 대량의 북 코퍼..