인공지능/자연어 처리

자연어 처리 15강 - Large Language Model

이게될까 2024. 6. 5. 17:28
728x90
728x90

Transformer model

생성형 모델의 대부분은 Decoder 모델이다.

 

input이 들어가면 차례대로 결과가 나오고, 질문에 대한 답을 생성하는데 목적이 있다. 

fine-tuning으로 말이 되는지 안되는지 supervised learning도 진행한다.

 

이러한 fine-tuning없이 모든 task를 잘하길 원했고, 스케일 up, 학습 up하여 좋은 데이터셋을 가지고 좋은 모델을 만들려고 지속적으로 시도하였다.

 

GPT2는 시존 책 코퍼스가 아니라 웹 텍스트를 가져왔고, 데이터의 양도 많이 늘렸다.

transformer layer도 12층에서 48층으로 늘리면서 토큰 수도 늘었다.

117M -> 1.5B로 파라미터도 엄청나게 증가!

Vocab size를 늘렸다 == 인코딩 방식을 세분화 하였다.

input을 넣을 때 무슨 일을 할지 같이 넣어준다.

Zero shot -  finetuning을 하지 않고, pre training된 것만 이용하여 task를 푸는 것

일반적, 범용적인 모델이라면 제로샷에서도 잘 되어야 한다.

얼렸다 == 파라미터를 업데이트 하지 않겠다.  == 파인튜닝을 하지 않았다. == inference만 하겠다. == pre training 모델을 믿겠다.

아직까지는 fine- tuning을 진행한 supervised 모델보다 성능이 좋진 않지만 조금 따라잡았다.

 

GPT3는 학습 데이터가 또 10배가 늘었다.

모델 크기도 엄청나게 커졌다. -> 파인튜닝하는데 리소스가 많이 들어간다. == input으로만 해결해야 한다.

Few-shot의 등장

Example(3 ~ 10) 수가 많아질수록 성능이 개선된다.
특성을 알려줄수록 성능이 빠르게 올라간다 == Natural Language Prompt 

GPT의 모델이 커져서 이런 다양한 방식을 사용할 수 있게 되었다.

 

데이터와 prompt가 답이다 -> 데이터 셋을 전부 다 모아서 학습시킨다 

 

in context Learning

 모델이 답을 하기 전에 task를 알려주는 형식이다.

 

 

지금 few shot이랑 incontext learning 차이가 크게 느껴지지 않아서...

https://arxiv.org/abs/2305.16938

 

Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation

Few-shot fine-tuning and in-context learning are two alternative strategies for task adaptation of pre-trained language models. Recently, in-context learning has gained popularity over fine-tuning due to its simplicity and improved out-of-domain generaliza

arxiv.org

여기도 명확한 차이는 안보이고..

https://genai.stackexchange.com/questions/638/what-is-the-difference-between-in-context-learning-and-few-shot-prompting

 

What is the difference between in-context learning and few-shot prompting?

In-context learning is a prompt engineering technique where natural-language demonstrations are provided as part of the prompt (source). Few-shot prompting is about providing a few examples in the ...

genai.stackexchange.com

in context learning 중에 few shot이 포함된다고 생각하면 되겠네요...?

더보기

Few-shot learning, in-context learning, 그리고 FLAN은 모두 자연어 처리(NLP)에서 대형 언어 모델의 학습과 활용 방법에 관련된 개념입니다. 각 개념의 차이와 특징을 설명하겠습니다.

Few-shot Learning

정의:

  • Few-shot learning은 모델이 새로운 작업을 소수의 예제(일반적으로 10개 미만)만 보고도 잘 학습할 수 있는 능력을 의미합니다.

특징:

  • 일반화 능력: 모델이 적은 수의 학습 데이터로도 새로운 작업에 잘 적응할 수 있어야 합니다.
  • 적용 사례: 텍스트 분류, 번역, 질문 응답 등 다양한 NLP 작업에서 few-shot learning이 적용될 수 있습니다.
  • 주요 목표: 데이터 효율성을 높여 적은 학습 데이터로도 높은 성능을 달성하는 것입니다.

In-context Learning

정의:

  • In-context learning은 모델이 명시적인 파인 튜닝 없이 주어진 문맥(context)에서 바로 학습하고 예측을 수행하는 능력입니다. 문맥 자체가 모델에 대한 입력으로 주어져 예제와 함께 모델이 학습하는 방식입니다.

특징:

  • 문맥 기반 학습: 예제와 함께 주어진 문맥에서 학습합니다.
  • 명시적 파인 튜닝 없음: 모델이 추가적인 파인 튜닝 없이 주어진 문맥 내에서 바로 예측을 수행합니다.
  • 적용 방식: 모델 입력에 작업 설명과 몇 가지 예제(예: Q&A 쌍)를 포함하여 모델이 이를 기반으로 새로운 질문에 대한 답을 생성합니다.

FLAN (Finetuned Language Models)

정의:

  • FLAN은 사전 학습된 대형 언어 모델을 다양한 명령어 형식(instruction format)을 사용하여 미세 조정(finetuning)하는 방법입니다. 이를 통해 모델이 Zero-shot 설정에서도 더 잘 작동하도록 합니다.

특징:

  • Instruction Tuning: 명령어 형식을 사용하여 모델을 미세 조정함으로써 모델이 더 다양한 작업을 수행할 수 있도록 합니다.
  • Zero-shot Learning 개선: 추가적인 예제 없이도 모델이 주어진 명령어에 따라 적절한 출력을 생성할 수 있습니다.
  • 클러스터 및 작업 추가: 다양한 작업 클러스터와 명령어를 추가하여 모델의 성능을 더욱 향상시킵니다.
  • Scaling Laws: 모델의 크기가 커질수록 성능이 향상됨을 관찰할 수 있습니다.

차이점 요약

  1. Few-shot Learning:
    • 소수의 예제만으로도 학습하는 능력을 의미합니다.
    • 모델이 새로운 작업에 적응하기 위해 소수의 예제를 사용합니다.
  2. In-context Learning:
    • 주어진 문맥에서 명시적인 파인 튜닝 없이 바로 학습하고 예측하는 능력을 의미합니다.
    • 예제와 함께 주어진 문맥에서 바로 예측을 수행합니다.
  3. FLAN:
    • 사전 학습된 모델을 다양한 명령어 형식을 사용하여 미세 조정하는 방법입니다.
    • Zero-shot 설정에서도 모델이 잘 작동하도록 하는 것이 주요 목표입니다.
    • 명령어 형식을 사용하여 모델의 성능을 향상시킵니다.

이 세 가지 개념은 모두 대형 언어 모델의 학습과 활용에 중요한 역할을 하며, 각기 다른 방식으로 모델의 성능을 개선하는 데 기여합니다.

 

 

Few-shot learning과 in-context learning의 차이를 더 구체적으로 설명하겠습니다.

Few-shot Learning

정의:

  • Few-shot learning은 모델이 새로운 작업을 소수의 예제만 보고도 잘 학습할 수 있는 능력을 의미합니다.

특징:

  • 학습 방식: 모델은 주어진 소수의 예제를 사용하여 명시적으로 학습합니다. 이는 일반적으로 모델의 파라미터를 업데이트하는 과정이 포함됩니다.
  • 훈련과 평가: 훈련 데이터와 평가 데이터가 별도로 주어지며, 모델은 훈련 데이터에서 학습하고 평가 데이터에서 성능을 테스트합니다.
  • 예제 수: 일반적으로 10개 미만의 예제만을 사용하여 학습합니다.
  • 사용 사례: Few-shot learning은 새로운 태스크에 대해 빠르게 적응해야 하는 경우에 유용합니다.

In-context Learning

정의:

  • In-context learning은 모델이 명시적인 파인 튜닝 없이 주어진 문맥(context)에서 바로 학습하고 예측을 수행하는 능력입니다.

특징:

  • 학습 방식: 모델은 주어진 문맥과 몇 가지 예제를 함께 입력으로 받아들이며, 문맥 자체가 모델에게 학습 데이터로 제공됩니다. 여기서 문맥은 작업에 대한 설명과 예제를 포함합니다.
  • 훈련과 평가: 모델은 훈련과 평가 단계가 명확히 구분되지 않으며, 주어진 입력 문맥 내에서 바로 예측을 수행합니다.
  • 예제 수: 문맥에 포함된 예제의 수는 몇 개에서 많게는 수십 개까지 다양할 수 있습니다.
  • 사용 사례: In-context learning은 명시적인 파인 튜닝 없이도 다양한 태스크를 빠르게 수행해야 하는 경우에 유용합니다.

차이점 요약

  1. Few-shot Learning:
    • 학습 과정: 소수의 예제를 사용하여 모델 파라미터를 업데이트하는 명시적인 학습 과정이 포함됩니다.
    • 구분된 단계: 훈련 단계와 평가 단계가 명확히 구분됩니다.
    • 적용: 모델이 소수의 예제를 보고 새로운 태스크에 적응해야 할 때 사용됩니다.
  2. In-context Learning:
    • 학습 과정: 모델 파라미터 업데이트 없이, 주어진 문맥 내에서 학습과 예측이 동시에 이루어집니다.
    • 통합된 단계: 훈련과 평가가 통합된 형태로 문맥 내에서 이루어집니다.
    • 적용: 모델이 명시적인 파인 튜닝 없이 다양한 태스크를 즉시 수행해야 할 때 사용됩니다.

예시 비교

Few-shot Learning

  • 설정: 모델이 새로운 언어 번역 태스크를 수행해야 한다고 가정합니다.
  • 훈련: 모델은 영어-프랑스어 번역 쌍 몇 개를 보고 학습합니다.
  • 평가: 모델은 학습한 내용을 바탕으로 새로운 영어 문장을 프랑스어로 번역합니다.

In-context Learning

  • 설정: 동일한 언어 번역 태스크.
  • 문맥: 모델에게 "Translate English to French:"라는 작업 설명과 함께 몇 개의 영어-프랑스어 번역 쌍을 제공합니다.
  • 예측: 모델은 주어진 문맥을 바탕으로 새로운 영어 문장을 프랑스어로 번역합니다.

Few-shot learning과 in-context learning은 모두 적은 양의 데이터로 작업을 수행하는 방법이지만, few-shot learning은 명시적인 학습 과정을 포함하며, in-context learning은 문맥 내에서 즉시 학습과 예측을 수행한다는 점에서 차이가 있습니다.

 

 

네, 맞습니다. Few-shot learning은 in-context learning의 한 형태로 간주될 수 있습니다. In-context learning은 모델이 주어진 문맥에서 바로 학습하고 예측을 수행하는 능력을 의미하며, few-shot learning은 그 중에서도 소수의 예제(샷)를 사용하여 모델이 새로운 작업을 수행할 수 있는 능력을 말합니다.

In-context Learning과 Few-shot Learning의 관계

In-context Learning:

  • 정의: 모델이 명시적인 파인 튜닝 없이 주어진 문맥 내에서 바로 학습하고 예측을 수행하는 능력.
  • 특징:
    • 작업 명령과 예제를 포함한 문맥을 기반으로 예측을 수행.
    • 예제 수에 따라 zero-shot, one-shot, few-shot 등으로 분류.

Few-shot Learning:

  • 정의: 모델이 소수의 예제(일반적으로 10개 미만)를 사용하여 새로운 작업을 학습하고 수행하는 능력.
  • 특징:
    • 주어진 소수의 예제를 문맥에 포함하여 모델이 학습하고 예측을 수행.
    • few-shot learning은 in-context learning의 특수한 경우로, 예제 수가 몇 개(샷)인 경우를 의미.

Few-shot Learning의 종류

  1. Zero-shot Learning:
    • 예제 없이 작업 명령만으로 예측을 수행.
    • 예: "Translate English to French: Cheese => ?"
  2. One-shot Learning:
    • 하나의 예제와 함께 작업 명령을 제공하여 예측을 수행.
    • 예: "Translate English to French: See otter => loutre de mer; Cheese => ?"
  3. Few-shot Learning:
    • 여러 개(일반적으로 10개 미만)의 예제와 함께 작업 명령을 제공하여 예측을 수행.
    • 예: "Translate English to French: See otter => loutre de mer; Plush giraffe => girafe peluche; Cheese => ?"

예시 비교

In-context Learning (Few-shot 포함)

Few-shot Learning:

  • 문맥: "Translate English to French: See otter => loutre de mer; Plush giraffe => girafe peluche; Cheese => ?"
  • 특징: 모델은 주어진 문맥 내에서 여러 예제를 통해 학습하고, 주어진 예제들을 바탕으로 새로운 입력에 대한 예측을 수행.

One-shot Learning:

  • 문맥: "Translate English to French: See otter => loutre de mer; Cheese => ?"
  • 특징: 모델은 주어진 문맥 내에서 한 개의 예제를 통해 학습하고, 이를 바탕으로 새로운 입력에 대한 예측을 수행.

Zero-shot Learning:

  • 문맥: "Translate English to French: Cheese => ?"
  • 특징: 모델은 주어진 문맥 내에서 예제 없이 작업 명령만으로 예측을 수행.

요약

  • In-context learning은 모델이 주어진 문맥에서 바로 학습하고 예측을 수행하는 능력을 말하며, 이는 예제 수에 따라 zero-shot, one-shot, few-shot으로 나눌 수 있습니다.
  • Few-shot learning은 in-context learning의 한 형태로, 소수의 예제를 포함한 문맥을 통해 모델이 새로운 작업을 학습하고 수행하는 것을 의미합니다.
  • 두 개념은 밀접하게 관련되어 있으며, few-shot learning은 in-context learning의 특수한 경우로 간주됩니다.

GPT는 오히려 혼란스럽게 하는거 같은...

 

더보기

FLAN(Finetuned Language Models)은 대형 언어 모델을 다양한 명령어 형식을 사용하여 미세 조정(finetuning)하는 방법을 의미합니다. FLAN은 특히 Zero-shot 학습 설정에서도 잘 작동하도록 설계되었으며, 다양한 작업에서 우수한 성능을 보입니다.

FLAN의 주요 개념 및 특징

  1. Instruction Tuning:
    • FLAN의 핵심 아이디어는 모델이 명령어(instruction)를 따르도록 훈련시키는 것입니다. 이는 모델이 다양한 작업을 수행할 수 있도록 도와줍니다.
    • 명령어 형식을 사용하여 모델을 미세 조정함으로써 모델이 더 다양한 작업을 수행할 수 있습니다.
  2. Zero-shot Learning:
    • FLAN은 Zero-shot 학습 설정에서 잘 작동하도록 설계되었습니다. 이는 모델이 추가적인 예제 없이도 주어진 명령어만으로 작업을 수행할 수 있음을 의미합니다.
    • 예를 들어, "Translate English to French"라는 명령어와 함께 영어 문장을 주면, 모델은 프랑스어로 번역할 수 있습니다.
  3. 클러스터 및 작업 추가:
    • FLAN은 다양한 작업 클러스터와 명령어를 추가하여 모델의 성능을 더욱 향상시킵니다.
    • 더 많은 작업과 명령어를 추가하면 모델이 더 많은 작업을 잘 수행할 수 있게 됩니다.
  4. Scaling Laws:
    • 모델의 크기가 커질수록 성능이 향상됨을 관찰할 수 있습니다. 이는 더 큰 모델이 더 많은 데이터를 학습하고, 더 복잡한 작업을 수행할 수 있음을 의미합니다.
  5. 훈련 과정:
    • FLAN은 모델을 다양한 작업에 대해 미세 조정함으로써, 모델이 각 작업에 대해 더 잘 이해하고 수행할 수 있도록 합니다.
    • 예를 들어, 번역 작업, 텍스트 요약 작업, 질문 응답 작업 등 다양한 작업에 대해 모델을 훈련시킵니다.

FLAN의 예시

FLAN의 학습 과정과 사용 방법을 설명하기 위해 몇 가지 예시를 살펴보겠습니다.

예시 1: 언어 번역

  • 입력: "Translate English to French: See otter => loutre de mer; Plush giraffe => girafe peluche; Cheese => ?"
  • 출력: "Fromage"
  • 설명: 모델은 주어진 명령어와 몇 가지 예제를 기반으로 새로운 영어 단어를 프랑스어로 번역합니다.

예시 2: 텍스트 요약

  • 입력: "Summarize the following text: 'The quick brown fox jumps over the lazy dog.'"
  • 출력: "A fox jumps over a dog."
  • 설명: 모델은 주어진 텍스트를 요약합니다.

예시 3: 질문 응답

  • 입력: "Answer the question based on the following context: 'The Eiffel Tower is located in Paris.' Question: Where is the Eiffel Tower located?"
  • 출력: "Paris"
  • 설명: 모델은 주어진 문맥을 바탕으로 질문에 답변합니다.

FLAN의 장점

  1. 다양한 작업 수행 능력:
    • FLAN은 다양한 명령어 형식을 통해 여러 작업을 수행할 수 있습니다. 이는 모델이 여러 작업을 동시에 학습하고 수행할 수 있게 합니다.
  2. Zero-shot 학습 성능 향상:
    • FLAN은 Zero-shot 설정에서도 우수한 성능을 보입니다. 이는 모델이 명령어만으로도 새로운 작업을 수행할 수 있음을 의미합니다.
  3. 확장성:
    • FLAN은 모델의 크기와 복잡성이 증가함에 따라 성능이 향상됩니다. 이는 대형 언어 모델이 더 많은 데이터를 학습하고 더 복잡한 작업을 수행할 수 있음을 의미합니다.
  4. 명령어 기반 학습:
    • FLAN의 명령어 기반 학습은 모델이 다양한 작업에 대한 명확한 지침을 받도록 하여, 모델이 각 작업을 더 잘 이해하고 수행할 수 있도록 합니다.

결론

FLAN은 대형 언어 모델을 다양한 명령어 형식을 사용하여 미세 조정함으로써 Zero-shot 설정에서도 우수한 성능을 발휘할 수 있게 하는 방법입니다. FLAN은 다양한 작업을 수행할 수 있는 능력, Zero-shot 학습 성능 향상, 확장성 등의 장점을 가지고 있습니다. 이를 통해 모델이 다양한 작업에서 더 잘 이해하고 수행할 수 있도록 합니다.

instruction을 가지고 튜닝하는 것이 중요하다.

 

 

Chain of Thought Prompting

 

RLHF : 사람의 평가에 의한 강화학습
사람이 답변들을 평가하고, 그 중 제일 높은 점수의 답이 나오도록 학습된다.

 

 

더보기

Large Language Models 개요

  • Transformer Model: BERT와 GPT와 같은 대형 언어 모델의 기본 아키텍처로 사용됩니다. Transformer는 인코더와 디코더로 구성됩니다.

GPT-1 (Generative Pre-Trained Transformer 1)

  • 발표: 2018년 OpenAI에 의해 발표.
  • 구성: 117M 파라미터.
  • 데이터셋: BooksCorpus (7,000권의 책).
  • 학습 방식: 비지도 학습(unsupervised pre-training)과 지도 학습(supervised fine-tuning)으로 구성됨.

GPT-2

  • 발표: 2019년 OpenAI에 의해 발표.
  • 주요 변경 사항:
    • 데이터셋 증가: 더 많은 데이터셋을 사용.
    • 모델 아키텍처 개선: 레이어 수, 컨텍스트 사이즈, 어휘 크기 증가.
  • 특징:
    • Zero-shot Setting: 사전 학습만으로 다양한 다운스트림 작업을 수행할 수 있음.
    • 성능 한계: 대부분의 작업에서 여전히 지도 학습 기반 모델에 비해 성능이 부족.

GPT-3

  • 발표: 2020년 OpenAI에 의해 발표.
  • 구성: 175B 파라미터.
  • 데이터셋: 다양한 대규모 데이터셋 사용 (WebText, BookCorpus, CommonCrawl 등).
  • 주요 개선 사항:
    • 컨텍스트 길이와 레이어 수 증가: GPT-2 대비 100배 이상의 파라미터 증가.
    • In-context Learning: Few-shot, One-shot, Zero-shot 학습을 지원하여 예시 몇 개 또는 전혀 없는 상태에서도 작업을 수행할 수 있음.
  • 효과:
    • 효과적인 In-context Learning: 더 큰 모델이 더 효율적으로 컨텍스트 정보를 사용.

FLAN (Finetuned Language Models Are Zero-Shot Learners)

  • 발표: 2022년 ICLR.
  • 주요 특징:
    • Instruction Tuning: 다양한 작업에 대한 지침을 학습하여 성능을 향상시킴.
    • Scaling Laws: 파라미터 수가 많은 모델에서 지침 학습이 성능을 크게 개선함.
    • 성능 개선: 추가 클러스터와 작업을 통해 평균 성능이 향상됨.

InstructGPT

  • 발표: 2022년 NeurIPS.
  • 주요 특징:
    • RLHF (Reinforcement Learning with Human Feedback): 인간 피드백을 통한 강화 학습을 사용하여 모델을 미세 조정함.
    • 학습 과정:
      • Supervised Fine-tuning: 초기 지도 학습.
      • Human Feedback: OpenAI API와 라벨러가 작성한 31,000개의 학습 프롬프트 사용.
      • Proximal Policy Optimization (PPO): 강화 학습 알고리즘 사용.

주요 모델 및 기법

  • GPT-1, GPT-2, GPT-3: 모델 크기와 학습 데이터의 증가에 따른 성능 개선.
  • FLAN: 지침 학습을 통해 Zero-shot 학습 성능 향상.
  • InstructGPT: 인간 피드백을 통한 강화 학습으로 성능 및 활용성 개선.

결론

  • 대형 언어 모델은 더 많은 파라미터와 데이터로 학습할수록 더 복잡한 작업을 효과적으로 처리할 수 있습니다.
  • Zero-shot, One-shot, Few-shot 학습 능력은 다양한 실제 응용 사례에서 유용하게 활용될 수 있습니다.
  • 인간 피드백과 지침 학습을 통한 모델의 성능 향상은 실용적인 AI 시스템 개발에 중요한 역할을 합니다.

이 요약을 통해 대형 언어 모델의 발전 과정과 각 모델의 주요 특징 및 성능 향상 기법을 이해할 수 있습니다.

 

 

O, X 문제 (10문제)

  1. GPT-1은 비지도 사전 훈련과 지도 미세 조정을 결합하여 학습된다. (O)
    • 해설: GPT-1은 비지도 사전 훈련과 지도 미세 조정을 통해 학습됩니다.
  2. GPT-2는 모델 아키텍처와 데이터셋의 크기를 확장하여 성능을 향상시켰다. (O)
    • 해설: GPT-2는 GPT-1보다 더 큰 모델 아키텍처와 더 많은 데이터를 사용하여 성능을 향상시켰습니다.
  3. GPT-3는 GPT-2보다 10배 더 많은 파라미터를 가지고 있다. (X)
    • 해설: GPT-3는 GPT-2보다 100배 더 많은 파라미터를 가지고 있습니다.
  4. GPT-3는 문맥 길이를 두 배로 늘리고, 레이어 수와 파라미터를 대폭 증가시켰다. (O)
    • 해설: GPT-3는 문맥 길이, 레이어 수, 파라미터 수를 모두 대폭 증가시켰습니다.
  5. GPT-2는 모든 다운스트림 작업을 무조건 zero-shot 설정에서 수행한다. (X)
    • 해설: GPT-2는 zero-shot 설정에서 잘 작동하지만, 모든 다운스트림 작업이 반드시 zero-shot에서 수행되는 것은 아닙니다.
  6. InstructGPT는 강화 학습과 인간 피드백을 결합하여 학습된다. (O)
    • 해설: InstructGPT는 강화 학습과 인간 피드백을 사용하여 모델을 훈련합니다.
  7. GPT-3는 few-shot, one-shot, zero-shot 설정에서 모두 작동할 수 있다. (O)
    • 해설: GPT-3는 few-shot, one-shot, zero-shot 설정에서 모두 작동할 수 있습니다.
  8. FLAN은 파라미터 효율성을 위해 설계된 모델이다. (X)
    • 해설: FLAN은 zero-shot 설정에서 성능을 개선하기 위해 설계된 모델입니다.
  9. Large Language Models (LLMs)는 Emergent Abilities를 통해 새로운 능력을 획득할 수 있다. (O)
    • 해설: LLMs는 Emergent Abilities를 통해 새로운 능력을 학습할 수 있습니다.
  10. Proximal Policy Optimization(PPO)은 강화 학습에서 일반적으로 사용되는 최적화 기법이다. (O)
    • 해설: PPO는 강화 학습에서 널리 사용되는 최적화 기법입니다.

빈칸 문제 (10문제)

  1. GPT-1은 비지도 사전 훈련과 지도 __을 결합하여 학습된다. (미세 조정)
    • 해설: GPT-1은 비지도 사전 훈련과 지도 미세 조정을 결합합니다.
  2. GPT-2는 모델 아키텍처와 __의 크기를 확장하여 성능을 향상시켰다. (데이터셋)
    • 해설: GPT-2는 모델 아키텍처와 데이터셋의 크기를 확장했습니다.
  3. GPT-3는 GPT-2보다 __배 더 많은 파라미터를 가지고 있다. (100)
    • 해설: GPT-3는 GPT-2보다 100배 더 많은 파라미터를 가지고 있습니다.
  4. GPT-3는 문맥 길이를 두 배로 늘리고, __ 수와 파라미터를 대폭 증가시켰다. (레이어)
    • 해설: GPT-3는 문맥 길이, 레이어 수, 파라미터 수를 대폭 증가시켰습니다.
  5. GPT-2는 모든 다운스트림 작업을 무조건 __ 설정에서 수행한다. (zero-shot)
    • 해설: GPT-2는 zero-shot 설정에서 잘 작동하지만, 모든 작업이 반드시 zero-shot에서 수행되는 것은 아닙니다.
  6. InstructGPT는 __과 인간 피드백을 결합하여 학습된다. (강화 학습)
    • 해설: InstructGPT는 강화 학습과 인간 피드백을 사용하여 학습합니다.
  7. GPT-3는 few-shot, one-shot, __ 설정에서 모두 작동할 수 있다. (zero-shot)
    • 해설: GPT-3는 few-shot, one-shot, zero-shot 설정에서 모두 작동할 수 있습니다.
  8. FLAN은 __ 설정에서 성능을 개선하기 위해 설계된 모델이다. (zero-shot)
    • 해설: FLAN은 zero-shot 설정에서 성능을 개선하기 위해 설계되었습니다.
  9. Large Language Models (LLMs)는 __ Abilities를 통해 새로운 능력을 획득할 수 있다. (Emergent)
    • 해설: LLMs는 Emergent Abilities를 통해 새로운 능력을 학습할 수 있습니다.
  10. Proximal Policy Optimization(PPO)은 __에서 일반적으로 사용되는 최적화 기법이다. (강화 학습)
    • 해설: PPO는 강화 학습에서 널리 사용됩니다.

서술형 문제 (10문제)

  1. GPT-1의 비지도 사전 훈련과 지도 미세 조정 절차를 설명하시오.
    • 정답: GPT-1은 대규모 텍스트 데이터로 비지도 사전 훈련을 수행한 후, 특정 과제에 맞게 지도 학습으로 미세 조정합니다. 비지도 사전 훈련 단계에서는 언어 모델이 일반적인 언어 패턴을 학습하고, 지도 미세 조정 단계에서는 특정 과제에 대한 성능을 최적화합니다.
    • 해설: GPT-1의 훈련 절차는 비지도 사전 훈련과 지도 미세 조정을 결합하여 다양한 언어 이해 과제에서 높은 성능을 발휘합니다.
  2. GPT-2와 GPT-3의 주요 차이점을 설명하시오.
    • 정답: GPT-2는 GPT-1보다 더 큰 모델 아키텍처와 더 많은 데이터를 사용하여 성능을 향상시켰으며, GPT-3는 GPT-2보다 100배 더 많은 파라미터와 더 긴 문맥 길이, 더 많은 레이어를 사용하여 성능을 대폭 개선하였습니다.
    • 해설: GPT-2와 GPT-3는 모델 크기, 데이터셋, 파라미터 수 등의 면에서 큰 차이가 있으며, 이는 성능 향상에 기여합니다.
  3. GPT-3의 few-shot, one-shot, zero-shot 학습 설정의 개념을 설명하시오.
    • 정답: Few-shot 학습은 몇 개의 예제를 사용하여 학습하는 방식이고, one-shot 학습은 한 개의 예제만을 사용하여 학습하며, zero-shot 학습은 예제 없이 사전 학습된 모델로 직접 예측하는 방식입니다.
    • 해설: GPT-3는 다양한 학습 설정에서 유연하게 작동하여, 예제의 수에 관계없이 높은 성능을 발휘할 수 있습니다.
  4. InstructGPT가 강화 학습과 인간 피드백을 사용하는 이유와 그 효과를 설명하시오.
    • 정답: InstructGPT는 강화 학습과 인간 피드백을 사용하여 모델의 출력을 인간의 기대에 맞게 조정합니다. 이는 모델의 유용성과 신뢰성을 높이는 데 기여합니다.
    • 해설: 강화 학습과 인간 피드백은 모델의 출력을 개선하고, 사용자가 기대하는 결과를 더 정확하게 제공할 수 있게 합니다.
  5. FLAN의 zero-shot 성능 향상 방법을 설명하시오.
    • 정답: FLAN은 다양한 과제와 클러스터에서 훈련된 지침을 추가하여 모델의 zero-shot 성능을 향상시킵니다. 이는 모델이 더 많은 문맥을 이해하고 다양한 작업에 적응할 수 있도록 합니다.
    • 해설: FLAN은 추가적인 지침과 클러스터를 통해 모델의 적응력을 높이고, 다양한 작업에서 높은 성능을 발휘할 수 있게 합니다.
  6. Large Language Models(LLMs)에서 Emergent Abilities의 역할을 설명하시오.
    • 정답: Emergent Abilities는 모델이 사전 학습된 지식을 바탕으로 새로운 능력을 학습하고, 이를 통해 새로운 작업을 수행할 수 있게 합니다. 이는 모델의 범용성과 적응력을 높이는 데 기여합니다.
    • 해설: Emergent Abilities는 LLMs가 다양한 작업을 효과적으로 처리할 수 있도록 돕는 중요한 요소입니다.
  7. GPT-3가 다양한 번역 작업에서 어떻게 성능을 발휘하는지 설명하시오.
    • 정답: GPT-3는 사전 학습된 언어 모델을 바탕으로 번역 작업을 수행하며, few-shot, one-shot, zero-shot 설정에서도 높은 성능을 발휘할 수 있습니다. 이는 모델이 문맥을 이해하고 적절한 번역을 생성할 수 있도록 합니다.
    • 해설: GPT-3는 다양한 번역 작업에서 문맥 이해와 예제 활용을 통해 높은 성능을 발휘합니다.
  8. InstructGPT의 강화 학습과 인간 피드백의 훈련 절차를 설명하시오.
    • 정답: InstructGPT는 인간 피드백을 기반으로 한 강화 학습을 통해 모델을 훈련합니다. 먼저, 인간 평가자가 모델의 출력을 평가하고, 이를 바탕으로 강화 학습을 통해 모델을 조정합니다. 이 과정은 모델의 출력을 개선하고, 사용자 요구에 맞는 결과를 제공할 수 있도록 합니다.
    • 해설: 강화 학습과 인간 피드백은 InstructGPT의 훈련 절차에서 중요한 역할을 하며, 모델의 유용성과 신뢰성을 높이는 데 기여합니다.
  9. Proximal Policy Optimization(PPO)의 역할과 장점을 설명하시오.
    • 정답: PPO는 강화 학습에서 널리 사용되는 최적화 기법으로, 안정적인 학습과 빠른 수렴을 가능하게 합니다. PPO는 정책 업데이트 시 큰 변화를 방지하여 학습 안정성을 높입니다.
    • 해설: PPO는 강화 학습의 효율성과 안정성을 높이는 데 중요한 역할을 합니다.
  10. Large Language Models(LLMs)에서 Scaling Laws의 중요성을 설명하시오.
    • 정답: Scaling Laws는 모델 크기와 성능 간의 관계를 설명하며, 모델의 크기가 커질수록 성능이 향상되는 경향을 보여줍니다. 이는 모델 설계와 훈련에서 중요한 지침을 제공합니다.
    • 해설: Scaling Laws는 LLMs의 성능 최적화와 설계에 중요한 역할을 합니다.

단답형 문제 (10문제)

  1. GPT-1은 어떤 절차를 통해 학습되는가?
    • 정답: 비지도 사전 훈련과 지도 미세 조정
    • 해설: GPT-1은 비지도 사전 훈련과 지도 미세 조정을 결합하여 학습됩니다.
  2. GPT-2는 모델 아키텍처와 __의 크기를 확장하여 성능을 향상시켰다.
    • 정답: 데이터셋
    • 해설: GPT-2는 모델 아키텍처와 데이터셋의 크기를 확장했습니다.
  3. GPT-3는 GPT-2보다 몇 배 더 많은 파라미터를 가지고 있는가?
    • 정답: 100배
    • 해설: GPT-3는 GPT-2보다 100배 더 많은 파라미터를 가지고 있습니다.
  4. InstructGPT는 어떤 두 가지 방법을 결합하여 학습되는가?
    • 정답: 강화 학습과 인간 피드백
    • 해설: InstructGPT는 강화 학습과 인간 피드백을 결합하여 학습됩니다.
  5. GPT-3는 few-shot, one-shot, __ 설정에서 모두 작동할 수 있다.
    • 정답: zero-shot
    • 해설: GPT-3는 few-shot, one-shot, zero-shot 설정에서 모두 작동할 수 있습니다.
  6. FLAN은 어떤 설정에서 성능을 개선하기 위해 설계되었는가?
    • 정답: zero-shot
    • 해설: FLAN은 zero-shot 설정에서 성능을 개선하기 위해 설계되었습니다.
  7. Large Language Models(LLMs)는 어떤 Abilities를 통해 새로운 능력을 획득할 수 있는가?
    • 정답: Emergent Abilities
    • 해설: LLMs는 Emergent Abilities를 통해 새로운 능력을 학습할 수 있습니다.
  8. Proximal Policy Optimization(PPO)는 어떤 학습에서 사용되는 최적화 기법인가?
    • 정답: 강화 학습
    • 해설: PPO는 강화 학습에서 널리 사용되는 최적화 기법입니다.
  9. GPT-3는 번역 작업에서 문맥을 이해하고 적절한 __을 생성할 수 있다.
    • 정답: 번역
    • 해설: GPT-3는 문맥을 이해하고 적절한 번역을 생성할 수 있습니다.
  10. Scaling Laws는 모델 크기와 __ 간의 관계를 설명한다.
    • 정답: 성능
    • 해설: Scaling Laws는 모델 크기와 성능 간의 관계를 설명합니다.
728x90