GPT의 Pretraining은 라벨이 존재할 수 없다. 데이터가 너무 방대하기 때문이다.
그래서 unsupervised pretraining을 진행하게 된다.
NWP = Next Word Prediction == 다음에 올 단어 예측하기
2024.06.05 - [인공지능/자연어 처리] - 자연어 처리 15강 - Large Language Model
여기에도 설명해 놨습니다.
BART = Bidirectional Auto-Regressive Transformer
BART는 다양하게 변형된 텍스트로부터 원형 텍스트를 복구한다!
2024.06.05 - [인공지능/자연어 처리] - 자연어 처리 14강 - Self supervised Learning 2
여기에서도 나옵니다.
T5 - Text-to-Text Transfer Transforme
BART와 마찬가지로 encoder와 디코더 모두 존재하지만 input과 output 모두 텍스트이다.
https://arxiv.org/abs/1910.10683
이거 재밌을 것 같네요 ㅎㅎ
https://huggingface.co/datasets/legacy-datasets/c4
오 데이터 셋....
Multi-task learning : 여러가지 task를 동시에 학습하기!
in-context learning - 문맥을 통해 배우는 방식으로 pretraining을 진행한다.
2024.06.05 - [인공지능/자연어 처리] - 자연어 처리 16강 - Prompt Engineering
예시를 사용하거나 다양한 방식을 통해 다양한 task를 진행하기!
Sparse-attention : 모두 attention을 할 수 없기 때문에 일부만 참조하여 연산량을 확 줄인다.
GPT의 데이터 때문이라도 어쩔 수 없이 편향이 존재할 수 밖에 없지 않나....?
'인공지능 > 자연어 처리' 카테고리의 다른 글
자연어 처리 LLaMa 모델 분석하기 (0) | 2024.07.21 |
---|---|
자연어 처리 : 분산학습 - Distributed Training, Python 실습 (1) | 2024.07.21 |
Generative AI - LM Baseline (1) | 2024.07.20 |
Python NLP - BERT Binary Classification (hugging Face Transformer library) (0) | 2024.06.19 |
자연어 처리 기말고사 대비 문제 만들기 (2) | 2024.06.12 |