728x90
728x90
10강 - Language model with GPT
OX 문제
- Language Modeling은 다음 단어를 예측하는 작업이다. (O/X)
- 정답: O
- 해설: Language Modeling의 기본 개념은 주어진 단어 시퀀스에서 다음에 올 단어를 예측하는 것이다.
- GPT-1은 양방향 self-attention을 사용한다. (O/X)
- 정답: X
- 해설: GPT-1은 단방향 self-attention을 사용하여, 다음 단어를 예측하기 위해 이전 단어들만을 고려한다.
- Perplexity는 Language Model 평가에서 사용되는 표준 평가 지표이다. (O/X)
- 정답: O
- 해설: Perplexity는 주어진 모델이 텍스트 데이터를 얼마나 잘 예측하는지를 나타내는 지표로, cross-entropy loss의 지수이다.
- GPT-1은 BookCorpus 데이터셋을 사용하여 사전 훈련되었다. (O/X)
- 정답: O
- 해설: GPT-1은 BookCorpus 데이터셋을 사용하여 사전 훈련을 진행하였다.
- RNN 모델은 입력 길이에 상관없이 처리할 수 있는 장점이 있다. (O/X)
- 정답: O
- 해설: RNN 모델은 가변적인 길이의 시퀀스 데이터를 처리할 수 있는 능력을 가지고 있다.
빈칸 채우기 문제
- Language Modeling은 주어진 단어 시퀀스에서 다음 단어를 ____ 하는 작업이다.
- 정답: 예측
- 해설: Language Modeling은 다음 단어를 예측하는 작업이다.
- Perplexity는 ____ loss의 지수이다.
- 정답: cross-entropy
- 해설: Perplexity는 cross-entropy loss의 지수이다.
- GPT-1의 사전 훈련 방법은 ____ 텍스트 코퍼스를 통해 진행된다.
- 정답: 비라벨링된
- 해설: GPT-1은 비라벨링된 텍스트 코퍼스를 통해 사전 훈련을 진행한다.
- RNN 모델은 ____ weight를 사용하여 입력 시퀀스를 처리한다.
- 정답: 동일한
- 해설: RNN 모델은 동일한 weight를 사용하여 시퀀스의 각 타임스텝을 처리한다.
- GPT-1의 목표는 대규모 ____ 데이터로부터 범용적인 표현을 학습하는 것이다.
- 정답: 비라벨링된
- 해설: GPT-1의 목표는 대규모 비라벨링된 데이터로부터 범용적인 표현을 학습하는 것이다.
단답형 문제
- Language Modeling의 주된 목적은 무엇인가요?
- 정답: 다음에 올 단어를 예측하는 것.
- 해설: Language Modeling은 주어진 단어 시퀀스에서 다음에 올 단어를 예측하는 작업이다.
- GPT-1 모델에서 사용되는 주요 데이터셋은 무엇인가요?
- 정답: BookCorpus
- 해설: GPT-1은 BookCorpus 데이터셋을 사용하여 사전 훈련을 진행하였다.
- Language Model 평가에서 사용되는 표준 지표는 무엇인가요?
- 정답: Perplexity
- 해설: Perplexity는 주어진 모델이 텍스트 데이터를 얼마나 잘 예측하는지를 나타내는 지표이다.
- RNN 모델의 주요 장점 중 하나는 무엇인가요?
- 정답: 입력 길이에 상관없이 처리할 수 있다.
- 해설: RNN 모델은 가변적인 길이의 시퀀스 데이터를 처리할 수 있는 능력을 가지고 있다.
- GPT-1 모델의 훈련 과정은 몇 단계로 이루어지나요?
- 정답: 두 단계 (사전 훈련과 미세 조정)
- 해설: GPT-1은 사전 훈련과 미세 조정의 두 단계로 훈련된다.
서술형 문제
- Language Modeling이 NLP에서 중요한 이유를 설명하세요.
- 정답: Language Modeling은 텍스트의 다음 단어를 예측하는 작업으로, Predictive typing, 음성 인식, 필기 인식, 맞춤법/문법 교정, 저자 식별, 기계 번역, 요약, 대화 등 다양한 NLP 작업의 기본 구성 요소이다. 이러한 작업들은 텍스트 생성 및 텍스트 확률 추정을 포함하며, Language Modeling은 이러한 작업들의 성능을 향상시키는 중요한 역할을 한다.
- 해설: Language Modeling은 NLP에서 다양한 응용 작업의 기본이 되며, 이를 통해 예측 타이핑, 음성 인식, 기계 번역 등 다양한 기능을 수행할 수 있다.
- RNN 모델의 주요 특성과 장점을 설명하세요.
- 정답: RNN 모델은 시퀀스 데이터를 처리할 수 있는 능력을 가지고 있으며, 입력 시퀀스의 길이에 관계없이 동일한 가중치를 사용하여 처리할 수 있다. RNN의 주요 장점으로는 가변적인 길이의 입력을 처리할 수 있고, 각 타임스텝에서 이전 타임스텝의 정보를 사용할 수 있으며, 모델 크기가 입력 길이에 따라 증가하지 않는다는 점이 있다.
- 해설: RNN은 시퀀스 데이터를 효율적으로 처리할 수 있는 모델로, 입력 길이에 상관없이 동일한 가중치를 사용하여 처리할 수 있다는 장점이 있다.
- GPT-1의 2단계 훈련 절차에 대해 설명하세요.
- 정답: GPT-1의 훈련 절차는 두 단계로 구성된다. 첫 번째 단계는 비라벨링된 텍스트 코퍼스를 사용하여 언어 모델을 사전 훈련하는 것이며, 두 번째 단계는 라벨링된 텍스트 코퍼스를 사용하여 특정 작업을 위한 미세 조정을 진행하는 것이다. 이를 통해 GPT-1은 다양한 작업에서 사용할 수 있는 범용적인 언어 표현을 학습할 수 있다.
- 해설: GPT-1은 비라벨링된 데이터로 사전 훈련을 진행하고, 라벨링된 데이터로 미세 조정을 통해 특정 작업에 맞춤화한다.
- GPT-1 모델이 기존 모델들보다 우수한 성능을 보이는 이유는 무엇인가요?
- 정답: GPT-1 모델은 대규모 비라벨링된 텍스트 데이터를 사용하여 사전 훈련을 진행하고, 이후 라벨링된 데이터를 사용하여 미세 조정을 통해 특정 작업에 맞춤화함으로써 우수한 성능을 보인다. 특히, Transformer 구조를 사용하여 긴 문맥을 효과적으로 처리할 수 있으며, 다양한 NLP 작업에서 높은 성능을 기록하였다.
- 해설: GPT-1은 대규모 데이터와 Transformer 구조를 활용하여 효과적인 학습을 진행하고, 다양한 NLP 작업에서 높은 성능을 발휘한다.
- GPT-1의 성능 평가 결과에서 Natural Language Inference 작업의 결과를 요약하세요.
- 정답: GPT-1은 대부분의 자연어 추론(NLI) 데이터셋에서 우수한 성능을 보였으며, 특히 데이터셋의 크기가 큰 경우 더 좋은 성능을 나타냈다. 단, RTE 데이터셋에서는 성능이 다소 낮았는데, 이는 해당 데이터셋의 크기가 작기 때문이다.
- 해설: GPT-1은 대규모 데이터셋에서 특히 뛰어난 성능을 보였으며, 이는 모델의 사전 훈련이 효과적임을 보여준다. 단, 작은 데이터셋에서는 성능이 낮을 수 있다.
11강 - NER + BERT
OX 문제
- Named Entity Recognition (NER) 작업의 목표는 이름이 있는 엔티티(사람, 조직, 장소 등)를 식별하는 것이다. (O/X)
- 정답: O
- 해설: NER의 기본 개념은 텍스트 내에서 특정 엔티티를 식별하는 것이다.
- BERT는 단방향 self-attention을 사용한다. (O/X)
- 정답: X
- 해설: BERT는 양방향 self-attention을 사용하여 문맥을 양쪽에서 모두 이해할 수 있다.
- NER 작업에서는 F1 점수가 모델 성능 평가에 사용된다. (O/X)
- 정답: O
- 해설: NER 작업에서는 F1 점수가 주로 사용되며, 이는 precision과 recall을 모두 고려한 지표이다.
- GPT는 문맥을 이해하기 위해 Masked Language Model (MLM)을 사용한다. (O/X)
- 정답: X
- 해설: GPT는 unidirectional self-attention을 사용하며, BERT가 MLM을 사용한다.
- ELMo는 Bi-LSTM 구조를 사용하여 양방향으로 정보를 처리하려고 한다. (O/X)
- 정답: O
- 해설: ELMo는 Bi-LSTM 구조를 사용하여 텍스트의 양쪽 방향에서 정보를 처리한다.
빈칸 채우기 문제
- Named Entity Recognition (NER) 작업의 목표는 이름이 있는 ____ (사람, 조직, 장소 등)을 식별하는 것이다.
- 정답: 엔티티
- 해설: NER의 목표는 텍스트 내에서 특정 엔티티를 식별하는 것이다.
- BERT는 문맥을 이해하기 위해 ____ Language Model (MLM)을 사용한다.
- 정답: Masked
- 해설: BERT는 양방향 문맥 이해를 위해 Masked Language Model을 사용한다.
- NER 작업에서는 모델의 성능을 평가하기 위해 ____ 점수가 주로 사용된다.
- 정답: F1
- 해설: NER 작업에서는 precision과 recall을 모두 고려한 F1 점수가 사용된다.
- GPT와 BERT의 주요 차이점은 GPT는 단방향 self-attention을 사용하고 BERT는 ____ self-attention을 사용한다는 것이다.
- 정답: 양방향
- 해설: GPT는 단방향 self-attention을 사용하며, BERT는 양방향 self-attention을 사용한다.
- ELMo는 ____ 구조를 사용하여 양방향으로 정보를 처리하려고 한다.
- 정답: Bi-LSTM
- 해설: ELMo는 Bi-LSTM 구조를 사용하여 텍스트의 양쪽 방향에서 정보를 처리한다.
단답형 문제
- Named Entity Recognition (NER) 작업의 주된 목표는 무엇인가요?
- 정답: 텍스트 내에서 특정 엔티티(사람, 조직, 장소 등)를 식별하는 것.
- 해설: NER의 목표는 텍스트 내에서 특정 엔티티를 식별하는 것이다.
- BERT 모델이 문맥을 이해하기 위해 사용하는 기법은 무엇인가요?
- 정답: Masked Language Model (MLM)
- 해설: BERT는 양방향 문맥 이해를 위해 Masked Language Model을 사용한다.
- NER 작업에서 모델의 성능을 평가하기 위해 주로 사용되는 지표는 무엇인가요?
- 정답: F1 점수
- 해설: NER 작업에서는 precision과 recall을 모두 고려한 F1 점수가 사용된다.
- GPT와 BERT의 주요 차이점은 무엇인가요?
- 정답: GPT는 단방향 self-attention을 사용하고, BERT는 양방향 self-attention을 사용한다.
- 해설: GPT는 단방향 self-attention을 사용하며, BERT는 양방향 self-attention을 사용한다.
- ELMo 모델에서 사용하는 주요 구조는 무엇인가요?
- 정답: Bi-LSTM
- 해설: ELMo는 Bi-LSTM 구조를 사용하여 텍스트의 양쪽 방향에서 정보를 처리한다.
서술형 문제
- Named Entity Recognition (NER)이 자연어 처리에서 중요한 이유를 설명하세요.
- 정답: NER은 텍스트 내에서 특정 엔티티(사람, 조직, 장소, 날짜 등)를 식별하는 작업으로, 정보 추출, 질문 응답, 문서 요약, 검색 엔진 등 다양한 NLP 응용 프로그램에서 핵심 역할을 한다. 정확한 엔티티 인식은 텍스트의 의미를 이해하고 관련 정보를 효과적으로 추출하는 데 필수적이다.
- 해설: NER은 여러 NLP 응용 프로그램에서 중요한 역할을 하며, 텍스트의 의미를 정확히 이해하고 관련 정보를 추출하는 데 필수적이다.
- BERT 모델의 Masked Language Model (MLM) 기법에 대해 설명하세요.
- 정답: BERT의 MLM 기법은 입력 시퀀스의 15% 단어를 [MASK] 토큰으로 대체하고, 모델이 이 마스크된 단어들의 원래 값을 예측하도록 학습시키는 방법이다. 이를 통해 BERT는 문맥의 양쪽 정보를 모두 활용하여 더 정확한 단어 예측과 문맥 이해가 가능하다.
- 해설: BERT의 MLM 기법은 문맥의 양쪽 정보를 활용하여 단어를 예측하는 방법으로, 모델의 문맥 이해 능력을 향상시킨다.
- F1 점수가 NER 작업에서 중요한 이유를 설명하세요.
- 정답: F1 점수는 precision과 recall의 조화 평균으로, NER 작업에서 모델의 정확도와 재현율을 동시에 고려하여 모델의 전반적인 성능을 평가하는 데 중요한 지표이다. 이는 특정 엔티티를 얼마나 정확히 식별하고, 전체 엔티티 중 얼마나 많이 찾아내는지를 종합적으로 평가할 수 있다.
- 해설: F1 점수는 모델의 전반적인 성능을 평가할 수 있는 종합적인 지표로, NER 작업에서 매우 중요하다.
- GPT와 BERT의 주요 차이점과 각 모델의 장단점을 설명하세요.
- 정답: GPT는 단방향 self-attention을 사용하여 이전 단어들로부터 다음 단어를 예측하는 데 강점을 가지며, 주로 생성 작업에 유리하다. 반면, BERT는 양방향 self-attention을 사용하여 문맥의 양쪽 정보를 모두 활용할 수 있어 문장의 의미를 더 잘 이해하고 예측할 수 있다. GPT는 생성 모델로서 강점을 가지지만 문맥의 전체 이해가 제한적이고, BERT는 이해와 예측에 강하지만 생성 작업에는 제한적이다.
- 해설: GPT와 BERT는 각기 다른 self-attention 방식을 사용하여 각자의 강점과 약점을 가진다. GPT는 생성 작업에, BERT는 이해와 예측 작업에 강점을 가진다.
- ELMo 모델이 Bi-LSTM 구조를 사용하는 이유와 그 효과를 설명하세요.
- 정답: ELMo 모델은 Bi-LSTM 구조를 사용하여 텍스트의 양쪽 방향에서 정보를 처리함으로써 문맥의 양쪽 정보를 모두 활용할 수 있다. 이를 통해 단어의 의미를 더 정확히 이해하고 문맥에 따라 적절한 단어 임베딩을 생성할 수 있다. Bi-LSTM 구조는 텍스트의 전후 정보를 모두 활용할 수 있어 단어의 의미를 더 잘 반영할 수 있다.
- 해설: ELMo의 Bi-LSTM 구조는 문맥의 양쪽 정보를 모두 활용하여 단어의 의미를 더 정확히 반영할 수 있게 한다.
12강 - QA + BERT
OX 문제
- Question Answering의 목표는 자연어로 제시된 질문에 자동으로 답변하는 시스템을 구축하는 것이다. (O/X)
- 정답: O
- 해설: Question Answering 시스템은 자연어로 제시된 질문에 자동으로 답변하는 것을 목표로 한다.
- SQuAD 데이터셋은 주로 영어 위키피디아에서 발췌한 문단으로 구성되어 있다. (O/X)
- 정답: O
- 해설: SQuAD 데이터셋의 문단은 영어 위키피디아에서 발췌한 것이다.
- BERT는 Byte-Pair Encoding (BPE) 알고리즘을 사용하여 단어를 토큰화한다. (O/X)
- 정답: X
- 해설: BERT는 WordPiece 모델을 사용하여 단어를 토큰화한다.
- BERT의 사전 훈련 데이터셋에는 Book Corpus와 영어 위키피디아가 포함된다. (O/X)
- 정답: O
- 해설: BERT는 Book Corpus와 영어 위키피디아를 사전 훈련 데이터셋으로 사용한다.
- Reading comprehension 문제는 주어진 텍스트의 내용을 이해하고 그에 대한 질문에 답변하는 것이다. (O/X)
- 정답: O
- 해설: Reading comprehension 문제는 주어진 텍스트를 이해하고 그에 대한 질문에 답변하는 것이다.
빈칸 채우기 문제
- Question Answering의 목표는 자연어로 제시된 질문에 ____으로 답변하는 시스템을 구축하는 것이다.
- 정답: 자동
- 해설: Question Answering 시스템은 자연어로 제시된 질문에 자동으로 답변하는 것을 목표로 한다.
- SQuAD 데이터셋의 문단은 주로 영어 ____에서 발췌한 것이다.
- 정답: 위키피디아
- 해설: SQuAD 데이터셋의 문단은 영어 위키피디아에서 발췌한 것이다.
- BERT는 ____ 모델을 사용하여 단어를 토큰화한다.
- 정답: WordPiece
- 해설: BERT는 WordPiece 모델을 사용하여 단어를 토큰화한다.
- BERT의 사전 훈련 데이터셋에는 Book Corpus와 영어 ____가 포함된다.
- 정답: 위키피디아
- 해설: BERT는 Book Corpus와 영어 위키피디아를 사전 훈련 데이터셋으로 사용한다.
- Reading comprehension 문제는 주어진 텍스트의 내용을 이해하고 그에 대한 ____에 답변하는 것이다.
- 정답: 질문
- 해설: Reading comprehension 문제는 주어진 텍스트를 이해하고 그에 대한 질문에 답변하는 것이다.
단답형 문제
- Question Answering의 주된 목표는 무엇인가요?
- 정답: 자연어로 제시된 질문에 자동으로 답변하는 것.
- 해설: Question Answering 시스템은 자연어로 제시된 질문에 자동으로 답변하는 것을 목표로 한다.
- SQuAD 데이터셋의 문단은 주로 어떤 출처에서 발췌되었나요?
- 정답: 영어 위키피디아
- 해설: SQuAD 데이터셋의 문단은 영어 위키피디아에서 발췌한 것이다.
- BERT 모델이 단어를 토큰화하기 위해 사용하는 모델은 무엇인가요?
- 정답: WordPiece 모델
- 해설: BERT는 WordPiece 모델을 사용하여 단어를 토큰화한다.
- BERT의 사전 훈련 데이터셋에는 어떤 데이터가 포함되나요?
- 정답: Book Corpus와 영어 위키피디아
- 해설: BERT는 Book Corpus와 영어 위키피디아를 사전 훈련 데이터셋으로 사용한다.
- Reading comprehension 문제의 주된 목표는 무엇인가요?
- 정답: 주어진 텍스트를 이해하고 그에 대한 질문에 답변하는 것.
- 해설: Reading comprehension 문제는 주어진 텍스트를 이해하고 그에 대한 질문에 답변하는 것이다.
서술형 문제
- Question Answering 시스템이 중요한 이유를 설명하세요.
- 정답: Question Answering 시스템은 사용자에게 자동으로 답변을 제공하여 정보 검색과 지식 탐색을 간편하게 만든다. 이는 고객 지원, 의료 상담, 교육 등 다양한 분야에서 실용적으로 활용될 수 있다. 특히, 자연어로 질문을 이해하고 정확한 답변을 제공함으로써 사용자의 만족도를 높이고, 효율적인 정보 제공이 가능해진다.
- 해설: Question Answering 시스템은 다양한 분야에서 실용적으로 활용되며, 사용자에게 자동으로 답변을 제공하여 정보 검색과 지식 탐색을 간편하게 한다.
- SQuAD 데이터셋이 Question Answering 연구에서 중요한 이유를 설명하세요.
- 정답: SQuAD 데이터셋은 대규모로 주어진 텍스트와 질문, 그리고 답변으로 구성되어 있어, 모델이 텍스트 이해와 질문 응답 능력을 훈련하고 평가하는 데 유용하다. 이 데이터셋은 다양한 자연어 처리 작업에서의 성능을 비교하고 측정하는 데 표준으로 사용되며, 많은 연구자들이 이를 통해 모델의 성능을 향상시키고 있다.
- 해설: SQuAD 데이터셋은 텍스트 이해와 질문 응답 능력을 훈련하고 평가하는 데 유용한 대규모 데이터셋으로, 연구자들이 모델의 성능을 비교하고 향상시키는 데 중요한 역할을 한다.
- BERT 모델의 사전 훈련 과정에서 Masked Language Model (MLM) 기법의 역할을 설명하세요.
- 정답: BERT의 MLM 기법은 입력 시퀀스의 일부 단어를 [MASK] 토큰으로 대체하고, 모델이 이 마스크된 단어들의 원래 값을 예측하도록 학습시키는 방법이다. 이를 통해 모델은 문맥의 양쪽 정보를 모두 활용하여 단어의 의미를 더 잘 이해하고 예측할 수 있다. 이는 BERT가 양방향 문맥 정보를 활용할 수 있도록 도와준다.
- 해설: BERT의 MLM 기법은 문맥의 양쪽 정보를 활용하여 단어를 예측하는 방법으로, 모델의 문맥 이해 능력을 향상시킨다.
- Reading comprehension 문제의 중요성과 그 응용 분야를 설명하세요.
- 정답: Reading comprehension 문제는 텍스트를 이해하고 그에 대한 질문에 답변하는 능력을 평가하는 중요한 테스트베드로, 컴퓨터 시스템이 인간의 언어를 얼마나 잘 이해하는지를 평가하는 데 사용된다. 이 문제는 정보 검색, 교육, 문서 요약 등 다양한 응용 분야에서 활용될 수 있으며, 특히 사용자의 질의에 대해 정확한 답변을 제공하는 시스템을 개발하는 데 중요한 역할을 한다.
- 해설: Reading comprehension 문제는 컴퓨터 시스템의 언어 이해 능력을 평가하는 중요한 테스트베드로, 정보 검색, 교육, 문서 요약 등 다양한 응용 분야에서 활용될 수 있다.
- Byte-Pair Encoding (BPE) 알고리즘의 원리와 그 장점을 설명하세요.
- 정답: Byte-Pair Encoding (BPE) 알고리즘은 자주 함께 나타나는 문자 쌍을 반복적으로 병합하여 점진적으로 단어를 생성하는 방식으로, 처음에는 문자를 기반으로 시작하여 점차 단어 단위로 확장해 나간다. 이 알고리즘은 드문 단어를 효과적으로 처리할 수 있으며, 미리 정의된 고정된 단어 사전에 의존하지 않고 새로운 단어를 생성할 수 있는 유연성을 제공한다. 이를 통해 모델의 어휘 크기를 줄이면서도 다양한 단어를 처리할 수 있게 한다.
- 해설: BPE 알고리즘은 자주 함께 나타나는 문자 쌍을 병합하여 단어를 생성하는 방식으로, 드문 단어를 효과적으로 처리하고 새로운 단어를 생성할 수 있는 유연성을 제공한다.
13강 - Self-supervised Learning 1
아래는 PDF 파일을 바탕으로 만든 OX 문제, 빈칸 채우기 문제, 단답형 문제, 서술형 문제와 그에 대한 정답 및 해설입니다.
OX 문제
- Self-supervised learning은 레이블이 있는 데이터를 사용하여 학습한다. (O/X)
- 정답: X
- 해설: Self-supervised learning은 레이블이 없는 데이터를 사용하여 학습한다.
- Pre-training과 Fine-tuning은 큰 데이터셋을 사용하는 작업에서 중요한 역할을 한다. (O/X)
- 정답: O
- 해설: Pre-training과 Fine-tuning은 큰 데이터셋을 사용하여 모델의 성능을 향상시키는 데 중요한 역할을 한다.
- BERT 모델은 사전 학습 단계에서 Next Sentence Prediction (NSP) 손실을 사용한다. (O/X)
- 정답: O
- 해설: BERT 모델은 사전 학습 단계에서 NSP 손실을 사용한다.
- RoBERTa는 BERT보다 더 많은 데이터를 사용하여 사전 학습된다. (O/X)
- 정답: O
- 해설: RoBERTa는 BERT보다 더 많은 데이터를 사용하여 사전 학습된다.
- Self-supervised learning은 인간 주석이 필요하지 않다. (O/X)
- 정답: O
- 해설: Self-supervised learning은 인간 주석이 필요하지 않다.
빈칸 채우기 문제
- Self-supervised learning은 인간 주석이 ____ 않고 학습하는 방법이다.
- 정답: 필요하지
- 해설: Self-supervised learning은 레이블이 없는 데이터를 사용하여 학습한다.
- Pre-training 단계에서 모델은 주로 ____ 데이터를 사용하여 학습한다.
- 정답: 비라벨링된
- 해설: Pre-training 단계에서 모델은 주로 비라벨링된 데이터를 사용하여 학습한다.
- BERT 모델은 사전 학습 단계에서 ____ Language Model (MLM)과 Next Sentence Prediction (NSP) 손실을 사용한다.
- 정답: Masked
- 해설: BERT는 MLM과 NSP 손실을 사용하여 사전 학습을 진행한다.
- RoBERTa는 BERT보다 더 큰 ____를 사용하여 사전 학습을 진행한다.
- 정답: 데이터셋
- 해설: RoBERTa는 BERT보다 더 많은 데이터를 사용하여 사전 학습된다.
- Self-supervised learning은 ____을 사용하여 레이블을 생성한다.
- 정답: 원래 데이터
- 해설: Self-supervised learning은 원래 데이터를 변형하여 레이블을 생성한다.
단답형 문제
- Self-supervised learning의 주된 목표는 무엇인가요?
- 정답: 인간 주석 없이 데이터를 사용하여 모델을 학습시키는 것.
- 해설: Self-supervised learning은 레이블이 없는 데이터를 사용하여 학습한다.
- BERT 모델의 사전 학습 단계에서 사용되는 두 가지 주요 기법은 무엇인가요?
- 정답: Masked Language Model (MLM)과 Next Sentence Prediction (NSP)
- 해설: BERT는 MLM과 NSP 손실을 사용하여 사전 학습을 진행한다.
- RoBERTa 모델이 BERT 모델과 다른 점은 무엇인가요?
- 정답: 더 많은 데이터와 더 큰 배치 크기를 사용하여 사전 학습된다.
- 해설: RoBERTa는 BERT보다 더 많은 데이터를 사용하고, 더 큰 배치 크기를 사용하여 학습된다.
- Self-supervised learning에서 'pretext task'는 무엇을 의미하나요?
- 정답: 사전 학습 단계에서 수행되는 작업.
- 해설: Self-supervised learning에서 'pretext task'는 사전 학습 단계에서 수행되는 작업을 의미한다.
- Self-supervised learning의 이점은 무엇인가요?
- 정답: 레이블이 없는 데이터로 학습이 가능하여 많은 데이터를 활용할 수 있다.
- 해설: Self-supervised learning은 레이블이 없는 데이터를 사용하여 학습하므로, 많은 데이터를 활용할 수 있는 이점이 있다.
서술형 문제
- Self-supervised learning이 중요한 이유를 설명하세요.
- 정답: Self-supervised learning은 인간 주석 없이 대량의 비라벨링된 데이터를 사용하여 모델을 학습시킬 수 있어 비용과 시간을 절약할 수 있다. 또한, 이 방법은 다양한 도메인에서 높은 성능을 보이며, 레이블이 없는 데이터를 효과적으로 활용할 수 있게 한다.
- 해설: Self-supervised learning은 비용과 시간을 절약할 수 있으며, 다양한 도메인에서 높은 성능을 보일 수 있는 중요한 학습 방법이다.
- BERT 모델의 Masked Language Model (MLM) 기법에 대해 설명하세요.
- 정답: BERT의 MLM 기법은 입력 시퀀스의 일부 단어를 [MASK] 토큰으로 대체하고, 모델이 이 마스크된 단어들의 원래 값을 예측하도록 학습시키는 방법이다. 이를 통해 모델은 문맥의 양쪽 정보를 모두 활용하여 단어의 의미를 더 잘 이해하고 예측할 수 있다.
- 해설: BERT의 MLM 기법은 문맥의 양쪽 정보를 활용하여 단어를 예측하는 방법으로, 모델의 문맥 이해 능력을 향상시킨다.
- RoBERTa 모델이 BERT 모델과 다른 점을 설명하세요.
- 정답: RoBERTa는 BERT보다 더 많은 데이터를 사용하고, 더 큰 배치 크기를 사용하여 사전 학습을 진행한다. 또한, RoBERTa는 동적 마스킹을 사용하고 NSP 손실을 제거하여 성능을 향상시킨다.
- 해설: RoBERTa는 BERT보다 더 많은 데이터를 사용하고, 더 큰 배치 크기를 사용하며, 동적 마스킹과 NSP 손실 제거 등의 기법으로 성능을 향상시킨다.
- Self-supervised learning이 NLP 분야에서 어떻게 사용되는지 설명하세요.
- 정답: NLP 분야에서 self-supervised learning은 언어 모델링, 문장 쌍 일치, 문장 순서 예측 등의 작업에 사용된다. 이를 통해 모델은 비라벨링된 텍스트 데이터를 사용하여 사전 학습을 진행하고, 감정 분석, 질문 응답, 자연어 추론 등의 다운스트림 작업에 활용될 수 있다.
- 해설: NLP에서 self-supervised learning은 다양한 작업에 사용되며, 비라벨링된 텍스트 데이터를 효과적으로 활용할 수 있다.
- Byte-Pair Encoding (BPE) 알고리즘의 원리와 그 장점을 설명하세요.
- 정답: Byte-Pair Encoding (BPE) 알고리즘은 자주 함께 나타나는 문자 쌍을 반복적으로 병합하여 점진적으로 단어를 생성하는 방식으로, 처음에는 문자를 기반으로 시작하여 점차 단어 단위로 확장해 나간다. 이 알고리즘은 드문 단어를 효과적으로 처리할 수 있으며, 미리 정의된 고정된 단어 사전에 의존하지 않고 새로운 단어를 생성할 수 있는 유연성을 제공한다. 이를 통해 모델의 어휘 크기를 줄이면서도 다양한 단어를 처리할 수 있게 한다.
- 해설: BPE 알고리즘은 자주 함께 나타나는 문자 쌍을 병합하여 단어를 생성하는 방식으로, 드문 단어를 효과적으로 처리하고 새로운 단어를 생성할 수 있는 유연성을 제공한다.
이 문제들은 학생들의 이해도를 평가하는 데 효과적으로 사용될 수 있습니다. 각 문제 유형마다 다양한 난이도를 제공하여 학생들의 전반적인 이해도와 문제 해결 능력을 판단할 수 있습니다.
14강 - Self-supervised Learning 2
OX 문제
- Self-supervised learning은 레이블이 있는 데이터를 사용하여 학습한다. (O/X)
- 정답: X
- 해설: Self-supervised learning은 레이블이 없는 데이터를 사용하여 학습한다.
- RoBERTa 모델은 Next Sentence Prediction (NSP) 손실을 제거하여 학습한다. (O/X)
- 정답: O
- 해설: RoBERTa 모델은 NSP 손실을 제거하여 학습 성능을 향상시켰다.
- SpanBERT는 연속적인 랜덤 스팬을 마스킹하여 학습하는 기법이다. (O/X)
- 정답: O
- 해설: SpanBERT는 연속적인 랜덤 스팬을 마스킹하여 학습하는 기법을 사용한다.
- Longformer는 긴 문서를 처리하기 위해 전체 글로벌 어텐션을 사용한다. (O/X)
- 정답: X
- 해설: Longformer는 전체 글로벌 어텐션 대신 다양한 어텐션 패턴을 결합하여 사용한다.
- BART 모델은 문서의 스팬을 마스킹한 후 원래 문서를 복원하는 기법을 사용한다. (O/X)
- 정답: O
- 해설: BART 모델은 문서의 스팬을 마스킹하고 원래 문서를 복원하는 기법을 사용하여 학습한다.
빈칸 채우기 문제
- Self-supervised learning은 인간 주석이 ____ 않고 학습하는 방법이다.
- 정답: 필요하지
- 해설: Self-supervised learning은 레이블이 없는 데이터를 사용하여 학습한다.
- RoBERTa 모델은 ____ 손실을 제거하여 성능을 향상시켰다.
- 정답: NSP
- 해설: RoBERTa 모델은 NSP 손실을 제거하여 성능을 향상시켰다.
- SpanBERT는 연속적인 랜덤 ____을 마스킹하여 학습한다.
- 정답: 스팬
- 해설: SpanBERT는 연속적인 랜덤 스팬을 마스킹하여 학습하는 기법을 사용한다.
- Longformer는 긴 문서를 처리하기 위해 다양한 ____ 패턴을 결합하여 사용한다.
- 정답: 어텐션
- 해설: Longformer는 전체 글로벌 어텐션 대신 다양한 어텐션 패턴을 결합하여 사용한다.
- BART 모델은 문서의 스팬을 마스킹한 후 원래 문서를 ____ 기법을 사용한다.
- 정답: 복원하는
- 해설: BART 모델은 문서의 스팬을 마스킹하고 원래 문서를 복원하는 기법을 사용하여 학습한다.
단답형 문제
- Self-supervised learning의 주된 목표는 무엇인가요?
- 정답: 인간 주석 없이 데이터를 사용하여 모델을 학습시키는 것.
- 해설: Self-supervised learning은 레이블이 없는 데이터를 사용하여 학습한다.
- RoBERTa 모델이 BERT 모델과 다른 점은 무엇인가요?
- 정답: NSP 손실을 제거하고, 더 많은 데이터와 큰 배치 크기를 사용하여 학습한다.
- 해설: RoBERTa는 NSP 손실을 제거하고 더 많은 데이터를 사용하여 학습된다.
- SpanBERT는 어떤 기법을 사용하여 학습하나요?
- 정답: 연속적인 랜덤 스팬을 마스킹하는 기법.
- 해설: SpanBERT는 연속적인 랜덤 스팬을 마스킹하여 학습한다.
- Longformer는 긴 문서를 처리하기 위해 어떤 기법을 사용하나요?
- 정답: 다양한 어텐션 패턴을 결합하여 사용.
- 해설: Longformer는 전체 글로벌 어텐션 대신 다양한 어텐션 패턴을 결합하여 사용한다.
- BART 모델이 문서의 스팬을 마스킹하는 이유는 무엇인가요?
- 정답: 원래 문서를 복원하는 기법을 사용하여 모델을 학습시키기 위해.
- 해설: BART는 문서의 스팬을 마스킹하고 원래 문서를 복원하는 기법을 사용하여 학습한다.
서술형 문제
- Self-supervised learning이 중요한 이유를 설명하세요.
- 정답: Self-supervised learning은 인간 주석 없이 대량의 비라벨링된 데이터를 사용하여 모델을 학습시킬 수 있어 비용과 시간을 절약할 수 있다. 또한, 이 방법은 다양한 도메인에서 높은 성능을 보이며, 레이블이 없는 데이터를 효과적으로 활용할 수 있게 한다.
- 해설: Self-supervised learning은 비용과 시간을 절약할 수 있으며, 다양한 도메인에서 높은 성능을 보일 수 있는 중요한 학습 방법이다.
- RoBERTa 모델이 BERT 모델과 다른 점을 설명하세요.
- 정답: RoBERTa는 NSP 손실을 제거하고, 더 많은 데이터와 큰 배치 크기를 사용하여 학습한다. 또한, 동적 마스킹 기법을 사용하여 학습 성능을 향상시킨다.
- 해설: RoBERTa는 NSP 손실을 제거하고 더 많은 데이터를 사용하며, 동적 마스킹 기법을 통해 성능을 향상시킨다.
- SpanBERT의 주요 특징과 그 장점을 설명하세요.
- 정답: SpanBERT는 연속적인 랜덤 스팬을 마스킹하여 학습하며, 이는 토큰 간의 관계를 더 잘 학습할 수 있게 한다. 또한, 스팬 경계 목표(SBO)를 사용하여 마스킹된 전체 스팬을 경계로부터 예측하는 기법을 도입하여 성능을 향상시킨다.
- 해설: SpanBERT는 연속적인 랜덤 스팬 마스킹과 SBO 기법을 통해 토큰 간의 관계를 잘 학습하고 성능을 향상시킨다.
- Longformer의 어텐션 기법과 그 필요성을 설명하세요.
- 정답: Longformer는 긴 문서를 처리하기 위해 슬라이딩 윈도우 어텐션과 글로벌 어텐션 등의 다양한 어텐션 패턴을 결합하여 사용한다. 이는 긴 문서를 효율적으로 처리하고 계산 비용을 줄이는 데 필요하다.
- 해설: Longformer는 긴 문서를 효율적으로 처리하기 위해 다양한 어텐션 패턴을 결합하여 사용한다.
- BART 모델이 문서의 스팬을 마스킹하여 학습하는 이유를 설명하세요.
- 정답: BART 모델은 문서의 스팬을 마스킹한 후 원래 문서를 복원하는 기법을 사용하여 학습함으로써, 모델이 문맥을 더 잘 이해하고 텍스트 생성 능력을 향상시킬 수 있다.
- 해설: BART는 문서의 스팬을 마스킹하고 복원하는 기법을 통해 문맥 이해와 텍스트 생성 능력을 향상시킨다.
15강 - LLM
OX 문제
- GPT-1은 단방향 트랜스포머를 기반으로 한 모델이다. (O/X)
- 정답: O
- 해설: GPT-1은 단방향 트랜스포머(Transformer)를 기반으로 한 언어 모델이다.
- GPT-3는 GPT-2보다 매개변수 수가 100배 더 많다. (O/X)
- 정답: O
- 해설: GPT-3는 GPT-2에 비해 매개변수 수가 100배 증가하였다.
- GPT-2는 zero-shot 학습을 수행할 수 없다. (O/X)
- 정답: X
- 해설: GPT-2는 zero-shot 학습을 수행할 수 있으며, 별도의 미세 조정 없이도 특정 작업을 수행할 수 있다.
- InstructGPT는 인간 피드백을 활용한 강화 학습(RLHF)을 사용하여 모델을 훈련한다. (O/X)
- 정답: O
- 해설: InstructGPT는 인간 피드백을 활용한 강화 학습(RLHF)을 사용하여 모델을 훈련한다.
- FLAN은 지시 형식으로 학습된 언어 모델이 zero-shot 설정에서 잘 작동할 수 있음을 보여준다. (O/X)
- 정답: O
- 해설: FLAN 연구는 지시 형식으로 학습된 언어 모델이 zero-shot 설정에서 잘 작동할 수 있음을 보여준다.
빈칸 채우기 문제
- GPT-2는 입력 표현에서 ____을 포함한다.
- 정답: 태스크
- 해설: GPT-2는 입력 텍스트에 태스크를 포함시켜 다양한 작업을 수행할 수 있도록 한다.
- GPT-3는 zero-shot, ____, few-shot 학습 설정을 지원한다.
- 정답: one-shot
- 해설: GPT-3는 zero-shot, one-shot, few-shot 학습 설정을 모두 지원한다.
- InstructGPT는 ____ 학습과 인간 피드백을 결합하여 모델을 훈련한다.
- 정답: 강화
- 해설: InstructGPT는 강화 학습(RLHF)과 인간 피드백을 결합하여 모델을 훈련한다.
- FLAN 연구는 ____ 튜닝을 통해 언어 모델의 성능을 향상시킨다.
- 정답: 지시
- 해설: FLAN 연구는 지시 튜닝을 통해 언어 모델의 성능을 향상시킨다.
- GPT-3의 매개변수 수는 ____억 개이다.
- 정답: 1750
- 해설: GPT-3는 1750억 개의 매개변수를 가지고 있다.
단답형 문제
- GPT-1의 주요 특징은 무엇인가요?
- 정답: 단방향 트랜스포머를 기반으로 하고, 비지도 학습을 통해 사전 학습을 수행하며, 지도 학습으로 미세 조정한다.
- 해설: GPT-1은 단방향 트랜스포머를 기반으로 비지도 학습을 통해 사전 학습을 수행하고, 지도 학습으로 미세 조정한다.
- GPT-2와 GPT-1의 주요 차이점은 무엇인가요?
- 정답: GPT-2는 더 큰 데이터셋과 더 많은 매개변수를 사용하여 확장되었으며, zero-shot 학습을 지원한다.
- 해설: GPT-2는 GPT-1에 비해 더 큰 데이터셋과 더 많은 매개변수를 사용하여 확장되었으며, zero-shot 학습을 지원한다.
- GPT-3는 어떻게 높은 성능을 달성하였나요?
- 정답: GPT-3는 매개변수 수를 1750억 개로 대폭 늘리고, 다양한 고품질 데이터셋을 사용하여 학습하였다.
- 해설: GPT-3는 매개변수 수를 대폭 늘리고, 다양한 고품질 데이터셋을 사용하여 높은 성능을 달성하였다.
- InstructGPT의 훈련 과정에서 중요한 요소는 무엇인가요?
- 정답: 인간 피드백을 활용한 강화 학습(RLHF)과 지시 기반 학습.
- 해설: InstructGPT는 인간 피드백을 활용한 강화 학습과 지시 기반 학습을 통해 훈련된다.
- FLAN 모델의 주요 목표는 무엇인가요?
- 정답: 지시 튜닝을 통해 언어 모델이 zero-shot 설정에서 잘 작동하도록 하는 것.
- 해설: FLAN 모델의 주요 목표는 지시 튜닝을 통해 언어 모델의 zero-shot 성능을 향상시키는 것이다.
서술형 문제
- GPT-1, GPT-2, GPT-3 모델의 주요 발전 단계를 설명하세요.
- 정답: GPT-1은 단방향 트랜스포머를 기반으로 비지도 학습과 지도 학습을 결합하여 언어 모델링을 수행하였다. GPT-2는 더 큰 데이터셋과 더 많은 매개변수를 사용하여 확장되었으며, zero-shot 학습을 지원하여 별도의 미세 조정 없이 다양한 작업을 수행할 수 있게 되었다. GPT-3는 매개변수 수를 1750억 개로 대폭 늘리고, 고품질 데이터셋을 사용하여 성능을 크게 향상시켰다. 또한, few-shot, one-shot, zero-shot 학습 설정을 지원하여 다양한 작업에 적용할 수 있다.
- 해설: GPT-1, GPT-2, GPT-3 모델은 각각의 발전 단계를 통해 더 큰 데이터셋과 매개변수를 사용하고, 다양한 학습 설정을 지원하며, 성능을 지속적으로 향상시켰다.
- GPT-3의 in-context learning 기법에 대해 설명하세요.
- 정답: GPT-3의 in-context learning 기법은 모델이 사전 학습된 지식을 활용하여 입력된 예제(context)로부터 패턴을 학습하고, 새로운 입력에 대해 적절한 출력을 생성하는 방식이다. 이는 zero-shot, one-shot, few-shot 학습 설정에서 모두 작동하며, 모델이 별도의 미세 조정 없이도 다양한 작업을 수행할 수 있게 한다. 예를 들어, 번역 작업에서는 몇 가지 예제를 제시하면 모델이 새로운 문장을 번역할 수 있다.
- 해설: GPT-3의 in-context learning 기법은 사전 학습된 지식을 활용하여 입력 예제로부터 패턴을 학습하고, 다양한 작업을 수행할 수 있게 한다.
- InstructGPT가 인간 피드백을 사용하는 이유와 그 이점에 대해 설명하세요.
- 정답: InstructGPT는 모델이 사용자 지시를 더 잘 따를 수 있도록 인간 피드백을 활용한 강화 학습(RLHF)을 사용한다. 이는 모델이 더 자연스럽고 유용한 응답을 생성할 수 있게 하며, 다양한 작업에서 성능을 향상시킨다. 인간 피드백은 모델이 학습 과정에서 오류를 수정하고, 더 나은 결과를 생성하는 데 중요한 역할을 한다. 또한, 사용자 경험을 개선하고, 모델의 실용성을 높이는 데 기여한다.
- 해설: InstructGPT는 인간 피드백을 통해 모델의 성능을 향상시키고, 사용자 지시를 더 잘 따를 수 있게 하여 다양한 작업에서 더 나은 결과를 생성할 수 있다.
- FLAN 연구에서 지시 튜닝의 중요성과 그 효과를 설명하세요.
- 정답: FLAN 연구에서 지시 튜닝은 언어 모델이 지시를 이해하고 수행할 수 있도록 학습시키는 방법이다. 이는 모델이 zero-shot 설정에서 다양한 작업을 수행할 수 있게 하며, 성능을 크게 향상시킨다. 지시 튜닝은 모델이 새로운 작업에 빠르게 적응하고, 사용자 지시를 더 정확하게 따를 수 있게 하여 실용성을 높인다. 연구 결과, 지시 튜닝을 통해 학습된 모델은 다양한 작업에서 높은 성능을 보였다.
- 해설: FLAN 연구에서 지시 튜닝은 모델이 지시를 이해하고 수행할 수 있도록 하여 zero-shot 설정에서 다양한 작업을 수행할 수 있게 하며, 성능을 크게 향상시킨다.
- Large Language Model이 가지는 Emergent Abilities와 그 예시에 대해 설명하세요.
- 정답: Large Language Model은 학습 데이터와 매개변수의 증가에 따라 Emergent Abilities, 즉 새로운 능력이 나타날 수 있다. 예를 들어, in-context learning 능력은 모델이 입력된 예제로부터 패턴을 학습하고, 새로운 입력에 대해 적절한 출력을 생성할 수 있게 한다. 또 다른 예로, instruction following 능력은 모델이 사용자의 지시를 이해하고 수행할 수 있게 하여 다양한 작업에서 높은 성능을 발휘할 수 있게 한다. 이러한 능력은 모델이 더 복잡한 작업을 수행하고, 더 자연스럽고 유용한 응답을 생성할 수 있게 한다.
- 해설: Large Language Model은 학습 데이터와 매개변수의 증가에 따라 새로운 능력이 나타날 수 있으며, 이는 모델이 더 복잡한 작업을 수행하고, 더 자연스럽고 유용한 응답을 생성할 수 있게 한다.
16강 - Prompt Engineering
OX 문제
- Prompt engineering은 언어 모델에 원하는 작업을 효율적으로 수행하도록 개발하고 최적화하는 것이다. (O/X)
- 정답: O
- 해설: Prompt engineering은 언어 모델에 특정 작업을 수행하도록 최적화하는 기술이다.
- Temperature와 top_p는 언어 모델의 응답 다양성을 조절하는 주요 설정이다. (O/X)
- 정답: O
- 해설: Temperature와 top_p는 모델이 생성하는 응답의 다양성을 조절하는 중요한 파라미터이다.
- Prompt는 항상 입력 데이터와 출력 표시자를 포함해야 한다. (O/X)
- 정답: X
- 해설: Prompt의 구성 요소는 다양한데, 반드시 입력 데이터와 출력 표시자를 포함할 필요는 없다.
- Few-shot prompting은 언어 모델의 성능을 향상시키기 위해 몇 가지 예제를 제공하는 것이다. (O/X)
- 정답: O
- 해설: Few-shot prompting은 모델에 몇 가지 예제를 제공하여 성능을 향상시키는 방법이다.
빈칸 채우기 문제
- Prompt engineering은 언어 모델의 ____을 최적화하는 기술이다.
- 정답: 프롬프트
- 해설: Prompt engineering은 언어 모델의 프롬프트를 최적화하는 기술이다.
- Temperature 설정을 낮게 유지하면 모델이 ____ 응답을 생성한다.
- 정답: 정확한
- 해설: Temperature 설정을 낮게 하면 모델이 더 정확한 응답을 생성한다.
- Chain-of-Thought (CoT) prompting은 모델이 ____하는 방식을 도와준다.
- 정답: 추론
- 해설: CoT prompting은 모델이 단계별로 추론하도록 도와준다.
- Self-Consistency 기법은 여러 ____ 경로를 샘플링하여 가장 일관된 응답을 선택한다.
- 정답: 추론
- 해설: Self-Consistency 기법은 여러 추론 경로를 샘플링하여 가장 일관된 응답을 선택한다.
- Program-aided Language Models (PAL)은 LLM이 문제를 읽고 ____을 생성하도록 한다.
- 정답: 프로그램
- 해설: PAL은 LLM이 문제를 읽고 중간 추론 단계로 프로그램을 생성하도록 한다.
단답형 문제
- Prompt engineering이 중요한 이유는 무엇인가요?
- 정답: 연구, 발견, 발전에 중요하며, LLM의 한계를 테스트하고 평가하는 데 도움이 된다.
- 해설: Prompt engineering은 다양한 응용 프로그램을 가능하게 하며, LLM의 한계를 테스트하고 평가하는 데 중요한 역할을 한다.
- Temperature와 top_p 설정은 무엇을 조절하나요?
- 정답: 모델이 생성하는 응답의 다양성.
- 해설: Temperature와 top_p 설정은 모델의 응답 다양성을 조절한다.
- Zero-shot CoT 기법이란 무엇인가요?
- 정답: 예제 없이 "Let's think step by step"을 추가하여 모델이 추론하도록 하는 기법.
- 해설: Zero-shot CoT는 예제 없이 모델이 단계별로 추론하도록 유도하는 기법이다.
- Self-Consistency 기법의 목표는 무엇인가요?
- 정답: 다양한 추론 경로를 샘플링하여 가장 일관된 응답을 선택하는 것.
- 해설: Self-Consistency 기법은 다양한 추론 경로를 샘플링하여 가장 일관된 응답을 선택하는 것을 목표로 한다.
서술형 문제
- Prompt engineering의 중요성과 그 응용 분야에 대해 설명하세요.
- 정답: Prompt engineering은 언어 모델이 다양한 작업을 효과적으로 수행하도록 하는 데 필수적이다. 이는 연구, 발전 및 혁신적인 응용 프로그램 개발에 기여한다. 예를 들어, 텍스트 요약, 질문 응답, 텍스트 분류, 코드 생성 등의 작업에서 활용될 수 있다. 또한, 사용자 경험을 개선하고 직관적인 인터페이스를 제공하는 데 도움을 준다.
- 해설: Prompt engineering은 다양한 작업에서 언어 모델의 성능을 향상시키고, 연구와 응용 프로그램 개발에 중요한 역할을 한다.
- Temperature와 top_p 설정이 언어 모델의 응답에 미치는 영향을 설명하세요.
- 정답: Temperature 설정은 모델이 생성하는 응답의 랜덤성을 조절한다. 낮은 temperature 값은 모델이 더 결정론적이고 정확한 응답을 생성하게 하고, 높은 값은 더 다양한 응답을 생성하게 한다. top_p 설정은 모델이 다음 단어를 선택할 때 확률 분포의 상위 p%를 고려하도록 한다. 낮은 top_p 값은 모델이 더 제한된 선택을 하게 하고, 높은 값은 더 다양한 선택을 가능하게 한다.
- 해설: Temperature와 top_p 설정은 모델의 응답 다양성과 정확성을 조절하여 원하는 응답을 얻는 데 중요한 역할을 한다.
- Few-shot prompting과 Zero-shot CoT 기법의 차이점을 설명하세요.
- 정답: Few-shot prompting은 모델에 몇 가지 예제를 제공하여 성능을 향상시키는 기법이다. 이는 모델이 주어진 예제를 통해 패턴을 학습하고 새로운 입력에 대해 더 나은 응답을 생성하게 한다. 반면, Zero-shot CoT 기법은 예제 없이 "Let's think step by step"과 같은 지시어를 추가하여 모델이 단계별로 추론하도록 유도하는 기법이다. 이는 주로 예제가 없는 상황에서 모델의 추론 능력을 향상시키는 데 사용된다.
- 해설: Few-shot prompting은 예제를 제공하여 학습을 돕고, Zero-shot CoT는 예제 없이 모델의 추론 능력을 향상시키는 기법이다.
- Prompt engineering에서 Self-Consistency 기법이 중요한 이유를 설명하세요.
- 정답: Self-Consistency 기법은 다양한 추론 경로를 샘플링하여 가장 일관된 응답을 선택함으로써 모델의 성능을 향상시킨다. 이는 특히 산술 및 상식 추론 작업에서 유용하다. 다양한 추론 경로를 고려함으로써 단순한 탐욕적 디코딩보다 더 정확하고 신뢰할 수 있는 응답을 생성할 수 있다. 따라서 Self-Consistency 기법은 모델의 추론 능력을 강화하고 응답의 일관성을 높이는 데 중요한 역할을 한다.
- 해설: Self-Consistency 기법은 모델의 성능을 향상시키고, 특히 추론 작업에서 더 정확하고 일관된 응답을 생성하도록 돕는 중요한 기법이다.
17강 - Parameter-efficient tuning
OX 문제
- Parameter-efficient tuning은 모든 파라미터를 미세 조정하는 대신, 일부 파라미터만을 수정하는 접근법이다. (O/X)
- 정답: O
- 해설: Parameter-efficient tuning은 모델의 모든 파라미터를 미세 조정하는 대신, 일부 파라미터만을 수정하여 효율성을 높이는 방법이다.
- Adapter 모듈은 전체 모델을 재훈련하는 대신 경량의 어댑터 모듈만을 학습시킨다. (O/X)
- 정답: O
- 해설: Adapter 모듈은 경량의 어댑터 모듈만을 학습시켜 전체 모델을 재훈련하는 것보다 더 효율적이다.
- P-Tuning은 프롬프트를 사용하여 미리 학습된 모델의 파라미터를 모두 업데이트한다. (O/X)
- 정답: X
- 해설: P-Tuning은 미리 학습된 모델의 파라미터를 업데이트하지 않고, 프롬프트를 사용하여 모델을 질의한다.
- LoRA(Low-Rank Adaptation)는 모델의 특정 부분에 낮은 랭크의 적응을 적용하는 방법이다. (O/X)
- 정답: O
- 해설: LoRA는 모델의 특정 부분에 낮은 랭크의 적응을 적용하여 효율성을 높이는 방법이다.
- Parameter-efficient tuning은 모든 NLP 작업에서 full fine-tuning보다 항상 더 나은 성능을 보인다. (O/X)
- 정답: X
- 해설: Parameter-efficient tuning은 효율성을 높이지만, 항상 full fine-tuning보다 더 나은 성능을 보이는 것은 아니다.
빈칸 채우기 문제
- Parameter-efficient tuning은 ____을 최적화하여 여러 작업에 사용할 수 있다.
- 정답: 파라미터
- 해설: Parameter-efficient tuning은 일부 파라미터만을 최적화하여 여러 작업에 사용할 수 있다.
- Adapter 모듈은 경량의 ____ 모듈만을 학습시킨다.
- 정답: 어댑터
- 해설: Adapter 모듈은 경량의 어댑터 모듈만을 학습시킨다.
- P-Tuning은 프롬프트를 사용하여 미리 학습된 모델을 ____한다.
- 정답: 질의
- 해설: P-Tuning은 프롬프트를 사용하여 미리 학습된 모델을 질의한다.
- LoRA는 모델의 특정 부분에 ____ 랭크의 적응을 적용한다.
- 정답: 낮은
- 해설: LoRA는 모델의 특정 부분에 낮은 랭크의 적응을 적용한다.
- Parameter-efficient tuning은 전체 모델을 재훈련하는 것보다 더 ____적이다.
- 정답: 효율
- 해설: Parameter-efficient tuning은 전체 모델을 재훈련하는 것보다 더 효율적이다.
단답형 문제
- Parameter-efficient tuning의 주요 목표는 무엇인가요?
- 정답: 모델의 일부 파라미터만을 수정하여 효율성을 높이는 것.
- 해설: Parameter-efficient tuning은 모델의 일부 파라미터만을 수정하여 효율성을 높이는 방법이다.
- Adapter 모듈의 주요 장점은 무엇인가요?
- 정답: 전체 모델을 재훈련하지 않고도 경량의 어댑터 모듈만을 학습시켜 효율성을 높이는 것.
- 해설: Adapter 모듈은 전체 모델을 재훈련하지 않고 경량의 어댑터 모듈만을 학습시켜 효율성을 높인다.
- P-Tuning의 작동 방식은 무엇인가요?
- 정답: 프롬프트를 사용하여 미리 학습된 모델에 질의하고, 모델의 파라미터를 업데이트하지 않는다.
- 해설: P-Tuning은 프롬프트를 사용하여 미리 학습된 모델에 질의하며, 모델의 파라미터를 업데이트하지 않는다.
- LoRA의 주요 특징은 무엇인가요?
- 정답: 모델의 특정 부분에 낮은 랭크의 적응을 적용하여 파라미터 효율성을 높이는 것.
- 해설: LoRA는 모델의 특정 부분에 낮은 랭크의 적응을 적용하여 파라미터 효율성을 높인다.
- Parameter-efficient tuning이 필요한 이유는 무엇인가요?
- 정답: 모델 크기가 커지고 작업 수가 증가함에 따라 전체 파라미터를 미세 조정하는 것이 비효율적이기 때문.
- 해설: 모델 크기가 커지고 작업 수가 증가함에 따라 전체 파라미터를 미세 조정하는 것이 비효율적이기 때문에 Parameter-efficient tuning이 필요하다.
서술형 문제
- Parameter-efficient tuning의 필요성과 그 이점을 설명하세요.
- 정답: Parameter-efficient tuning은 모델 크기와 작업 수가 증가함에 따라 전체 파라미터를 미세 조정하는 것이 비효율적이기 때문에 필요하다. 이를 통해 모델의 일부 파라미터만을 수정하여 여러 작업에 효율적으로 적용할 수 있으며, 학습 시간이 단축되고 저장 공간이 절약된다. 또한, 다양한 작업에서의 성능을 유지하면서도 더 적은 자원으로 모델을 미세 조정할 수 있다.
- 해설: Parameter-efficient tuning은 효율성을 높이고, 학습 시간과 자원을 절약하며, 여러 작업에서 성능을 유지할 수 있는 중요한 방법이다.
- Adapter 모듈의 원리와 그 효과를 설명하세요.
- 정답: Adapter 모듈은 전체 모델을 재훈련하지 않고, 경량의 어댑터 모듈만을 학습시켜 모델의 파라미터 효율성을 높이는 방법이다. 어댑터 모듈은 모델의 특정 레이어에 삽입되며, 이를 통해 새로운 작업에 적응할 수 있게 한다. 이 방법은 전체 모델을 재훈련하는 것보다 더 적은 자원으로 효율적으로 학습할 수 있으며, 다양한 작업에서 높은 성능을 유지할 수 있다.
- 해설: Adapter 모듈은 경량의 어댑터 모듈을 학습시켜 파라미터 효율성을 높이며, 다양한 작업에서 높은 성능을 유지할 수 있게 한다.
- P-Tuning의 한계와 이를 극복하기 위한 방법을 설명하세요.
- 정답: P-Tuning은 모델의 파라미터를 업데이트하지 않고 프롬프트를 사용하여 모델을 질의하는 방법이다. 그러나 중간 크기의 모델에서는 성능이 떨어질 수 있으며, 프롬프트의 불안정성과 대규모 검증 세트가 필요하다는 한계가 있다. 이를 극복하기 위해 P-Tuning v2에서는 프롬프트를 레이어별로 프리픽스 토큰으로 추가하고, 연속적인 프리픽스 튜닝을 통해 성능을 개선하였다.
- 해설: P-Tuning의 한계를 극복하기 위해 P-Tuning v2에서는 프롬프트를 레이어별로 추가하고, 연속적인 프리픽스 튜닝을 통해 성능을 개선하였다.
- LoRA(Low-Rank Adaptation)의 주요 아이디어와 그 장점을 설명하세요.
- 정답: LoRA는 모델의 특정 부분에 낮은 랭크의 적응을 적용하여 파라미터 효율성을 높이는 방법이다. 이를 통해 모델의 성능을 유지하면서도 파라미터 수를 줄일 수 있다. LoRA는 특히 큰 모델에서 효과적이며, 여러 작업에서 높은 성능을 유지하면서도 더 적은 자원으로 학습할 수 있게 한다.
- 해설: LoRA는 모델의 특정 부분에 낮은 랭크의 적응을 적용하여 파라미터 효율성을 높이며, 성능을 유지하면서도 자원을 절약할 수 있는 방법이다.
- Parameter-efficient tuning 접근법들이 전체 모델 미세 조정(fine-tuning)보다 더 효율적인 이유를 설명하세요.
- 정답: Parameter-efficient tuning 접근법들은 전체 모델을 미세 조정하는 것보다 더 적은 파라미터를 수정하여 모델을 학습시키기 때문에 효율적이다. 이는 학습 시간과 저장 공간을 절약하며, 모델의 크기가 커지고 작업 수가 증가할수록 그 효율성이 더욱 두드러진다. 또한, 다양한 작업에서 성능을 유지하면서도 더 적은 자원으로 모델을 적용할 수 있어 실용적이다.
- 해설: Parameter-efficient tuning 접근법들은 적은 파라미터 수정으로 효율성을 높이고, 학습 시간과 자원을 절약하며, 다양한 작업에서 높은 성능을 유지할 수 있는 방법이다.
728x90
'인공지능 > 자연어 처리' 카테고리의 다른 글
Generative AI - LM Baseline (1) | 2024.07.20 |
---|---|
Python NLP - BERT Binary Classification (hugging Face Transformer library) (0) | 2024.06.19 |
자연어 처리 기말고사 정리 (0) | 2024.06.11 |
자연어 처리 17강 - Parameter efficient Tuning (1) | 2024.06.05 |
자연어 처리 16강 - Prompt Engineering (0) | 2024.06.05 |