인공지능/자연어 처리

자연어 처리 LLaMa 모델 분석하기

이게될까 2024. 7. 21. 20:07
728x90
728x90

https://arxiv.org/abs/2203.15556

 

Training Compute-Optimal Large Language Models

We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling langu

arxiv.org

LLM은 학습 한번 후 오래 사용하므로 추론 할 때의 비용도 중요하다!

LLaMa는 큰 토큰과 작은 모델을 사용하였고, 오픈소스를 통해 대중에 공개하였다.

 

LLaMa도 Transformer의 Decoder를 이용해 만든 모델이다.

데이터
웹 크롤링하여 영어 데이터만 사용
C4 - 정제과정(욕설, 경고문, 코드, 중복, 길이)을 거쳐 완전한 문장만을 가져온다. 
아카이브를 통해 과학 도메인도 채웠다. 

GPT-3보다 파라미터가 거의 0.4배지만 성능이 굉장히 좋아졌다. 

MMLU - 다양한 학문을 통해 성능을 측정한다. 

 

모델이 커질수록 부정적인 말을 할 가능성이 높아진다....

할루시네이션 문제를 극복하진 못했다.

 

두 모델 모두 Transformer 디코더 모델이다.

 

챗 GPT- 대화형 모델 
휴먼 피드벡을 통한 강화 학습도 진행하였따.
가중치 비공개

라마 
데이터 양이 GPT 3 보다 더 크다.
누구나 사용할 수 있는 데이터만을 가지고 학습하였다.
가중치 공개

728x90