728x90
728x90
https://arxiv.org/abs/2203.15556
LLM은 학습 한번 후 오래 사용하므로 추론 할 때의 비용도 중요하다!
LLaMa는 큰 토큰과 작은 모델을 사용하였고, 오픈소스를 통해 대중에 공개하였다.
LLaMa도 Transformer의 Decoder를 이용해 만든 모델이다.
데이터
웹 크롤링하여 영어 데이터만 사용
C4 - 정제과정(욕설, 경고문, 코드, 중복, 길이)을 거쳐 완전한 문장만을 가져온다.
아카이브를 통해 과학 도메인도 채웠다.
GPT-3보다 파라미터가 거의 0.4배지만 성능이 굉장히 좋아졌다.
MMLU - 다양한 학문을 통해 성능을 측정한다.
모델이 커질수록 부정적인 말을 할 가능성이 높아진다....
할루시네이션 문제를 극복하진 못했다.
두 모델 모두 Transformer 디코더 모델이다.
챗 GPT- 대화형 모델
휴먼 피드벡을 통한 강화 학습도 진행하였따.
가중치 비공개
라마
데이터 양이 GPT 3 보다 더 크다.
누구나 사용할 수 있는 데이터만을 가지고 학습하였다.
가중치 공개
728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
자연어 처리 python 실습 - LLaMa instruction Tuning (1) | 2024.07.21 |
---|---|
자연어 처리 : LLaMa Pretrain하기 - python 실습 (1) | 2024.07.21 |
자연어 처리 : 분산학습 - Distributed Training, Python 실습 (1) | 2024.07.21 |
Gen AI LM - GPT (1) | 2024.07.20 |
Generative AI - LM Baseline (1) | 2024.07.20 |