인공지능/자연어 처리

Gen AI LM - GPT

이게될까 2024. 7. 20. 23:17
728x90
728x90

GPT의 Pretraining은 라벨이 존재할 수 없다. 데이터가 너무 방대하기 때문이다. 
그래서 unsupervised pretraining을 진행하게 된다.
NWP = Next Word Prediction == 다음에 올 단어 예측하기

2024.06.05 - [인공지능/자연어 처리] - 자연어 처리 15강 - Large Language Model

 

자연어 처리 15강 - Large Language Model

생성형 모델의 대부분은 Decoder 모델이다. input이 들어가면 차례대로 결과가 나오고, 질문에 대한 답을 생성하는데 목적이 있다. fine-tuning으로 말이 되는지 안되는지 supervised learning도 진행한다.

yoonschallenge.tistory.com

여기에도 설명해 놨습니다.

 

BART = Bidirectional Auto-Regressive Transformer 
BART는 다양하게 변형된 텍스트로부터 원형 텍스트를 복구한다!

2024.06.05 - [인공지능/자연어 처리] - 자연어 처리 14강 - Self supervised Learning 2

 

자연어 처리 14강 - Self supervised Learning 2

BERT에서는 supervised learning과 unsupervised learning의 중간인 semi(self) supervised learning을 Pre-training 과정(실제 task 풀기 전 전반적인 지식 탐구)에 한다. Fine-tuning을 진행할 때 labeled dataset으로 supervised learni

yoonschallenge.tistory.com

여기에서도 나옵니다.

 

T5 - Text-to-Text Transfer Transforme
BART와 마찬가지로 encoder와 디코더 모두 존재하지만 input과 output 모두 텍스트이다.

https://arxiv.org/abs/1910.10683

 

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a div

arxiv.org

이거 재밌을 것 같네요 ㅎㅎ

 

https://huggingface.co/datasets/legacy-datasets/c4

 

legacy-datasets/c4 · Datasets at Hugging Face

The Dataset Viewer has been disabled on this dataset.

huggingface.co

오 데이터 셋....

 

Multi-task learning : 여러가지 task를 동시에 학습하기!

 

in-context learning - 문맥을 통해 배우는 방식으로 pretraining을 진행한다.

 

2024.06.05 - [인공지능/자연어 처리] - 자연어 처리 16강 - Prompt Engineering

 

자연어 처리 16강 - Prompt Engineering

Instruction : input에 대한 설명 Context : input  Prompt = instruction + context Prompt -> model -> output Prompt 엔지니어링 == 모델을 다양한 분야에 적용하기 위해 Chat GPT는 오픈 도메인으로 instruction

yoonschallenge.tistory.com

예시를 사용하거나 다양한 방식을 통해 다양한 task를 진행하기!

 

Sparse-attention : 모두 attention을 할 수 없기 때문에 일부만 참조하여 연산량을 확 줄인다.

 

GPT의 데이터 때문이라도 어쩔 수 없이 편향이 존재할 수 밖에 없지 않나....?

 

728x90