https://arxiv.org/abs/2201.11903
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
We explore how generating a chain of thought -- a series of intermediate reasoning steps -- significantly improves the ability of large language models to perform complex reasoning. In particular, we show how such reasoning abilities emerge naturally in su
arxiv.org
직전에 봤던 논문의 연장선 같은 느낌입니다.
Few-Shot에 그냥 답만 주는 것이 아닌 생각하는 과정을 포함해서 모델에 입력하고, 그를 통해 적절한 사고 과정을 보여주고, 답을 냅니다.
기존 Few-Shot 연구의 단점에서 나왔 듯, 그냥 예시만 주면 논리적인 문제에서 Fine-tuning보다 낮은 성과를 보이는 문제가 있었습니다.
그리하여 나온 방법이고, 다양한 추론 Task에서 효과적인 모습을 보였습니다.
이 Figure에서 보면 알 수 있든 Standard Prompting(기존의 Few-Shot)은 성능에 한계가 있었고, CoT를 통한 Prompting을 진행하니 SOTA를 달성한 것을 볼 수 있습니다.
CoT도 Few-Shot과 마찬가지로 모델 크기에 의존적이긴 하지만 기존 Supervised를 뛰어넘는 성능을 보여줍니다.
Ablation Study를 통해 단순 Few-Shot 예시 혹은 연산 시간만 늘리는 것은 큰 도움이 되지 않는 다는 것을 보여줍니다.
자연어를 통한 생각의 사슬이 모델이 추론하는 데 도움을 주고, 결과에 큰 영향을 끼치는 것을 보여줍니다.
Agent에는 Prompt가 너무 중요하기에 한번 쭉 읽어보는 시간이었습니다.
연구 배경 | 대규모 언어 모델(LLM)은 단순한 질문-응답 작업에서는 뛰어난 성능을 보이지만, 복잡한 산술, 상식 추론, 기호 조작과 같은 논리적 추론 작업에서는 성능 한계를 가짐. 기존의 Fine-tuning 기반 방법은 많은 레이블 데이터와 높은 비용이 필요. Chain-of-Thought Prompting(CoT)은 Fine-tuning 없이 모델의 추론 능력을 대폭 향상시키는 새로운 Prompting 방법론으로 제안됨. |
연구 목적 | CoT가 LLM에서 복잡한 문제 해결에 효과적인 이유를 검증하고, 다양한 실험을 통해 CoT의 강점(성능, Robustness)을 증명함. |
CoT 정의 및 특징 | - CoT는 문제 해결의 중간 추론 단계를 자연어로 생성하여 모델이 단계적으로 논리적 사고를 유도. - 사람의 사고 과정을 모방하여, 복잡한 문제를 중간 논리 과정을 통해 분해함. - Fine-tuning 없이 Prompt에 예제를 추가하는 방식으로 구현 가능. |
실험 데이터셋 | - 산술: GSM8K, SVAMP, ASDiv, MAWPS - 상식: CSQA, StrategyQA, Sports Understanding, SayCan, Date Understanding - 기호: Last Letter Concatenation, Coin Flip |
주요 결과 (성능 향상) | 1. 산술 문제 (GSM8K): CoT가 기존 Prompting 대비 15.6% → 46.9%로 3배 이상 성능 향상. 2. 상식 문제 (Sports Understanding): CoT는 59.5% → 85.8%로 성능 증가. 3. 기호 문제 (Coin Flip): CoT가 49.0% → 99.6%로 거의 완벽한 성능을 보임. 👉 CoT는 산술, 상식, 기호 문제 모두에서 Standard Prompting보다 성능이 우수. |
Ablation Study | - Equation Only: 방정식만 생성하도록 Prompt를 설계했으나, 자연어 추론 단계가 없이는 성능이 미미함. - Variable Compute Only: 계산량만 늘리는 방식은 성능에 기여하지 못함. - Reasoning After Answer: 정답 뒤에 논리를 제공했을 때도 성능이 증가하지 않음. 👉 CoT의 효과는 자연어로 명시적인 중간 논리를 생성하는 데 있음. |
Robustness 실험 결과 | 1. Annotator 다양성: 다양한 Annotator가 CoT를 작성해도 성능은 항상 Standard Prompting을 초월. 2. 간결한 CoT: CoT 스타일이 간결해져도 성능 유지. 3. 예제 순서/세트: 예제 순서와 세트가 달라도 성능이 크게 변하지 않음. 4. 모델 크기/종류: LaMDA, GPT-3, PaLM 등 다양한 모델에서도 높은 성능 유지. 👉 CoT는 작성 스타일, 예제 구성 등 다양한 변수에 대해 Robust. |
CoT 효과의 이유 | - 문제를 단계별로 구조화하고, 논리적으로 사고하도록 모델을 유도. - 단순 계산량 증가가 아닌, 자연어로 된 중간 논리를 생성함으로써 복잡한 문제 해결 가능. - 모델이 논리적 과정을 직접 표현함으로써 결과 해석 가능성과 디버깅 용이성을 제공. |
한계점 | 1. 작은 모델(10B 이하)에서는 CoT 효과가 미미. 2. 특정 Task와 데이터셋(GPT-3의 CSQA, StrategyQA 등)에서는 CoT 효과가 제한적. 3. CoT Prompt 생성 과정의 자동화와 최적화가 필요한 상태. |
향후 연구 방향 | 1. 작은 모델에서도 효과적인 CoT 방식 연구. 2. CoT Prompt 생성의 자동화 및 최적화 연구. 3. CoT와 다른 학습 기법(Fine-tuning, MoE) 결합 연구. 4. 다른 Task(번역, 요약 등)에서 CoT 확장 가능성 탐구. 5. CoT를 활용한 Autonomous AI Systems 연구. |
결론 | CoT Prompting은 복잡한 문제 해결 능력을 강화하는 효과적인 방법론으로, 다양한 Task에서 강력한 성능을 발휘함. Prompt 설계만으로 Fine-tuning 없이 성능을 향상시킬 수 있어 실용적이며, 해석 가능성과 Robustness를 통해 AI 시스템에 널리 적용 가능. |
1. 연구 배경 및 문제 정의
최근 대규모 언어 모델(Large Language Models, LLMs)은 단순한 질문-응답(QA) 문제에서는 뛰어난 성능을 보이지만, 산술, 상식(Common Sense), 기호(Symbolic) 추론 등 복잡한 논리적 추론이 필요한 문제에서는 한계를 드러낸다.
이 논문은 Chain-of-Thought Prompting(CoT) 기법이 LLM의 논리적 추론 능력을 극적으로 향상시킬 수 있음을 보인다.
- 기존 방법의 한계:
- 모델 크기 증가만으로는 복잡한 추론 문제 해결이 어렵다.
- 일반적인 Few-shot Prompting은 단순한 QA에서는 잘 작동하지만, 논리적 추론이 필요한 문제에서는 효과적이지 않다.
- Fine-tuning 기반 접근법은 훈련 데이터 생성이 비싸고, 새로운 작업에 대한 일반화가 어렵다.
따라서, 저자들은 자연어를 이용한 연쇄적 추론을 유도하는 CoT Prompting이 이러한 문제를 해결할 수 있는지를 연구했다.
2. 연구 방법 (Chain-of-Thought Prompting)
CoT Prompting은 문제에 대한 중간 추론 단계를 자연어로 생성한 후 최종 정답을 도출하는 방식이다.
이는 인간이 복잡한 문제를 해결할 때 사고하는 방식과 유사하다.
2.1 CoT Prompting 예시
기존 Few-shot Prompting 방식:
Q: Roger는 5개의 테니스 공을 가지고 있다. 3개의 테니스 공이 들어 있는 캔 2개를 샀다.
Roger는 총 몇 개의 테니스 공을 가지고 있는가?
A: 답은 11이다.
CoT Prompting 방식:
Q: Roger는 5개의 테니스 공을 가지고 있다. 3개의 테니스 공이 들어 있는 캔 2개를 샀다.
A: Roger는 처음에 5개의 공을 가지고 있었다.
2개의 캔에는 각각 3개의 테니스 공이 들어 있다.
2 × 3 = 6개의 공을 추가로 얻었다.
5 + 6 = 11. 따라서 답은 11이다.
👉 자연어로 중간 추론 단계를 제공하면 모델이 논리적으로 사고하는 과정을 학습하여 정답을 도출하는 능력이 향상됨.
3. 실험 결과
3.1 데이터셋 및 평가 방법
CoT Prompting이 효과적인지 검증하기 위해 다양한 산술, 상식, 기호 추론 데이터셋에서 실험을 수행함.
사용된 데이터셋:
- 수학(word problems): GSM8K, SVAMP, ASDiv, AQuA, MAWPS
- 상식(reasoning): CSQA, StrategyQA, Date Understanding, Sports Understanding, SayCan
- 기호 추론(symbolic reasoning): Last Letter Concatenation, Coin Flip
3.2 주요 실험 결과
- CoT Prompting은 일반 Few-shot Prompting보다 성능이 크게 향상됨
- 특히 PaLM 540B 모델에서 GSM8K (수학 문제) 성능이 기존 GPT-3 175B Finetuning 모델을 초월
- GPT-3 175B에서 일반 Prompting 대비 GSM8K 성능이 15.6% → 46.9%로 3배 향상
- 상식 및 기호 추론에서도 CoT Prompting이 일관되게 높은 성능을 보임
- CoT Prompting의 효과는 모델 크기가 증가할수록 더 두드러짐
- 작은 모델(10B 이하)에서는 효과가 크지 않음.
- 100B 이상 크기의 모델에서 CoT Prompting이 강한 성능 향상을 보임.
- CoT Prompting이 수학뿐만 아니라 다양한 추론(task)에 효과적임
- 상식 추론(예: CSQA, StrategyQA) 및 기호 조작(예: Coin Flip Task)에서도 유의미한 성능 향상
- 특히 "Sports Understanding"에서는 사람이 직접 풀었을 때보다 높은 성능을 기록.
- Ablation Study: CoT의 중요한 요소 분석
- Equation-only Prompting: 중간 수식을 제공하는 것만으로는 효과가 제한적 (자연어 설명이 필요함).
- Variable Compute Only: 연산량을 늘리는 것만으로는 성능 향상이 없음.
- Reasoning after Answer: 답을 먼저 제시한 후 추론 과정을 제공하면 성능이 향상되지 않음.
👉 즉, 자연어를 이용한 단계적 논리 추론(CoT)이 성능 향상에 중요한 역할을 함.
4. 추가 분석 및 한계점
4.1 왜 CoT는 큰 모델에서만 효과적인가?
- 작은 모델(10B 이하)은 추론을 위한 충분한 의미적 이해가 부족하여, 중간 과정 생성이 비논리적으로 이루어짐.
- 100B+ 모델에서 비로소 "일관성 있는 논리적 추론"이 가능해짐.
4.2 Prompt Engineering의 중요성
- 다른 연구자(Annotator)가 작성한 CoT Prompt를 사용해도 성능 향상은 유지됨.
- 즉, CoT는 특정 문장의 스타일이 아니라 "연쇄적 논리"를 반영하는 것이 중요함.
4.3 CoT의 한계점
- CoT가 항상 올바른 논리를 생성하는 것은 아님.
- 모델이 잘못된 논리적 연결을 생성하는 경우도 있음 (예: 잘못된 수식 계산, 불완전한 문장 구조 등).
- 따라서, CoT가 항상 신뢰할 수 있는 추론을 제공하는 것은 아님.
5. 결론 및 향후 연구 방향
5.1 연구 결론
- CoT Prompting은 LLM에서 논리적 추론을 이끌어내는 강력한 방법임.
- CoT는 100B 이상의 모델에서만 효과적이며, 특히 수학 문제와 상식 추론에서 강력한 성능 향상을 보인다.
- Fine-tuning 없이 Prompting만으로 다양한 문제 해결이 가능하여 효율적임.
5.2 향후 연구 과제
- 더 작은 모델에서도 CoT를 가능하게 할 방법 연구
- 자연어 기반 논리적 추론의 신뢰성을 높이는 방법 연구
- CoT와 기존의 fine-tuning을 결합하여 최적의 학습 방식 탐색
- 다른 NLP task (번역, 요약 등)에서도 CoT의 적용 가능성 탐색
6. 연구의 의미 및 적용 가능성
- LLM의 추론 능력을 향상시킬 수 있는 매우 간단하지만 효과적인 방법 제시.
- Fine-tuning 없이 단순한 Prompt 수정만으로 성능을 향상할 수 있어 실용성이 높음.
- 자율 연구 AI 시스템 개발(예: AGI 연구, 자동 논문 생성)에도 활용 가능.
- 향후 AGI 연구에서 추론 능력을 강화하는 기법으로서 CoT가 중요한 역할을 할 것으로 기대됨.
🔥 이 논문이 당신의 연구에 미치는 영향
- LLM의 논리적 추론 개선
→ 작은 모델에서도 CoT 기법이 적용 가능할지 연구해볼 가치가 있음. - MoE(Mixture of Experts) 모델과의 결합 가능성
→ CoT 기법이 MoE 모델에서도 효과적으로 작동하는지 연구해볼 가치가 있음. - 자율 AI 연구 시스템 구축
→ 여러 LLM 에이전트가 CoT 기법을 사용하여 연구를 자동화하는 방향으로 발전 가능.
Chain-of-Thought (CoT) 프롬프팅은 언어 모델에서 추론을 촉진하는 접근 방식으로 여러 가지 매력적인 특성을 가진다.
- 첫째, CoT는 원칙적으로 다단계 문제를 중간 단계로 분해할 수 있도록 하여, 더 많은 논리적 추론이 필요한 문제에 추가적인 계산 자원을 할당할 수 있도록 한다.
- 둘째, CoT는 모델의 동작을 해석할 수 있는 창을 제공하여, 모델이 특정 정답에 도달한 과정을 보여주고, 논리적 추론 과정에서 오류가 발생한 지점을 디버깅할 수 있는 기회를 제공한다. (다만, 모델의 계산 과정이 어떻게 정답을 지원하는지 완전히 설명하는 것은 여전히 열린 문제로 남아 있다.)
- 셋째, CoT 추론은 수학적 문제 풀이, 상식 추론, 기호 조작(Symbolic Manipulation)과 같은 다양한 작업에 적용될 수 있으며, 원칙적으로 인간이 언어를 통해 해결할 수 있는 거의 모든 작업에 적용 가능하다.
- 마지막으로, CoT 추론은 단순히 몇 개의 예제(few-shot prompting) 안에 CoT 방식을 포함시키는 것만으로도 충분히 큰 사전 학습된 언어 모델에서 자연스럽게 유도될 수 있다.
실험을 통해 CoT 프롬프팅이 산술 추론(3장), 상식 추론(4장), 기호 추론(5장)에서 유용하게 작용하는 것을 관찰할 것이다.
Ablation Study
1. 연구 배경 및 목적
Chain-of-Thought (CoT) 프롬프팅이 모델의 성능을 개선하는 이유를 더 명확히 이해하기 위해, Ablation Study를 진행했다. 이 연구는 CoT가 아닌 다른 프롬프팅 변형들이 성능 향상에 영향을 미칠 수 있는지를 검증하기 위해 설계되었다.
Figure 5와 Table 6, 7에서는 다양한 CoT 변형 방식에 따른 성능 변화와 그 이유를 분석하였다.
2. 실험 구성: CoT 변형 방식
2.1 Equation Only
- 구성: 모델이 정답을 도출하기 전에 수학적 방정식만 생성하도록 프롬프팅을 설계.
- 결과: GSM8K 데이터셋에서 성능이 거의 향상되지 않음.
- GSM8K는 다단계 논리적 추론이 필요한 문제로, 자연어 추론 과정 없이 방정식만 생성하는 방식으로는 문제의 의미를 충분히 이해할 수 없음.
- 하지만, 단계가 적은 문제(1~2단계)에서는 방정식 생성이 도움이 되었음(Table 6).
- 해석: 자연어 기반의 논리적 추론 과정이 문제 해결에 중요하며, 단순 방정식 생성만으로는 복잡한 문제를 해결할 수 없다.
2.2 Variable Compute Only
- 구성: CoT의 효과가 추론 과정에서 더 많은 계산 자원을 할당(토큰 수 증가)하기 때문이라는 가설 검증.
- 이를 위해 모델이 문제를 푸는 데 필요한 방정식 길이에 비례하는 "."(점) 시퀀스를 출력하도록 설계.
- 결과: 기본 프롬프팅과 성능 차이가 거의 없음.
- GSM8K에서 CoT 방식이 아닌 단순 점(.) 출력은 문제 해결 능력에 영향을 미치지 않음(Table 6).
- 해석: 단순히 계산 자원을 더 할당하는 것만으로는 CoT의 효과를 재현할 수 없다.
- CoT가 효과적인 이유는 자연어를 통한 단계적 논리 전개가 이루어지기 때문임을 시사.
2.3 Reasoning After Answer
- 구성: CoT의 성능 향상이 단순히 모델이 학습 과정에서 관련 지식을 활성화하기 때문인지 검증.
- 이를 위해 CoT 논리 과정을 정답 이후에 제공하도록 설계.
- 결과: 이 방식 또한 기본 프롬프팅과 유사한 성능을 보임(Figure 5).
- CoT 논리 과정이 정답 도출에 직접적으로 사용되지 않음.
- 해석: CoT가 성능을 개선하는 이유는 단계적 추론을 통해 문제를 해결하는 데 도움을 주기 때문이다.
- CoT 논리 과정은 단순히 지식을 활성화하는 데 그치지 않고, 정답 도출 과정에 직접적으로 기여한다.
3. CoT 변형 방식별 성능 요약 (Figure 5, Table 6, Table 7)
3.1 Figure 5: GSM8K 성능 비교
- CoT 프롬프팅이 LaMDA 및 PaLM 모델에서 다른 모든 변형 방식을 압도.
- "Equation Only", "Variable Compute Only", "Reasoning After Answer" 모두 기본 프롬프팅과 유사한 수준의 성능을 보임.
- CoT는 특히 PaLM 모델에서 60% 이상의 문제 해결률을 기록하며, 모델 크기가 커질수록 효과가 극대화됨.
3.2 Table 6: 산술 추론 데이터셋 성능 비교
- CoT 프롬프팅은 산술 추론(GSM8K, SVAMP, ASDiv, MAWPS) 데이터셋에서 모든 변형 방식을 능가함.
- GSM8K 데이터셋:
- CoT: 14.3% ± 0.4
- Equation Only: 5.4% ± 0.2
- Variable Compute Only: 6.4% ± 0.3
- Reasoning After Answer: 6.1% ± 0.4
- 결론: 산술 문제 해결에는 CoT의 자연어 기반 중간 논리가 필수적이다.
3.3 Table 7: 상식 및 기호 추론 데이터셋 성능 비교
- CoT는 상식(Date, Sports, SayCan) 및 기호(Symbolic) 문제에서도 우수한 성능을 보임.
- 예시:
- Date Understanding
- Standard Prompting: 21.5% ± 0.6
- CoT: 26.8% ± 2.1
- Coin Flip
- Standard Prompting: 49.0% ± 2.1
- CoT: 99.6% ± 0.3
- Date Understanding
- 결론: 기호 조작 문제에서도 CoT의 단계적 논리가 큰 효과를 발휘한다.
4. 결론: CoT가 효과적인 이유
4.1 자연어 기반 단계적 논리
CoT는 문제 해결 과정을 자연어로 표현하여 논리적 추론을 명시적으로 수행하도록 모델을 유도한다.
- 단순히 방정식을 생성하거나 계산 자원을 늘리는 것만으로는 동일한 효과를 얻을 수 없다.
4.2 CoT의 강력한 일반화 능력
- CoT는 다양한 Task (산술, 상식, 기호 조작)에서 강력한 성능 향상을 제공한다.
- 모델이 복잡한 문제를 단계별로 풀 수 있는 능력을 학습하게 한다.
4.3 모델 크기와 CoT 효과
- CoT의 효과는 모델 크기가 커질수록 극대화된다.
- 특히, PaLM과 같은 초대형 모델에서 CoT 프롬프팅은 다른 모든 변형 방식을 능가한다.
5. 연구의 의의 및 적용 가능성
이 Ablation Study는 CoT의 성능 향상이 단순 계산 자원 증가나 방정식 생성 때문이 아님을 입증하였다.
- 자연어 기반 단계적 추론 과정이 문제 해결의 핵심임을 확인.
- 이는 다양한 LLM 기반 연구 및 어플리케이션에 CoT를 활용할 가능성을 열어준다.
- 예를 들어, Autonomous AI Systems에서 복잡한 의사결정을 수행하거나 다단계 작업을 자동화하는 데 CoT를 적용할 수 있다.
네, 맞습니다! Figure 5의 결과는 자연어로 된 Reasoning 단계가 문제 해결에 매우 중요한 역할을 한다는 것을 강하게 시사합니다.
1. 자연어 Reasoning의 중요성
- Chain-of-Thought (CoT) 방식은 문제를 해결하기 전에 자연어를 통해 중간 단계 추론 과정을 명시적으로 표현하도록 설계되었습니다.
- 결과적으로, CoT를 활용한 모델은 다른 변형 방식들(E.g., 단순 방정식 출력, 연산량 증가)보다 훨씬 더 높은 문제 해결률을 기록했습니다.
- LaMDA 137B: CoT 성능이 다른 모든 방식보다 우수.
- PaLM 540B: CoT는 60% 이상의 문제 해결률을 기록하며 다른 변형 방식을 압도.
2. 단순 계산량 증가는 효과가 미미함
- "Variable Compute Only"와 같이 단순히 출력 길이를 늘려 연산량을 증가시키는 방식은 기본 Prompting(Standard Prompting)과 성능이 크게 다르지 않았습니다.
- 이는 단순히 더 많은 계산 자원을 사용하는 것이 아니라, **의미 있는 논리적 전개(자연어 기반 Reasoning)**가 문제 해결의 핵심임을 보여줍니다.
3. CoT의 효과적인 이유
CoT는 단순히 "계산 자원을 더 많이 쓰는 것"과 달리:
- 문제 해결 과정을 논리적으로 구조화하여 자연스럽게 문제를 분석하고 해결 가능.
- 단계적 사고를 모델에 강제하여 복잡한 문제를 풀기 위한 연산 과정을 최적화.
- 문제 해결의 과정을 모델이 스스로 설명하도록 유도함으로써, 결과의 해석 가능성과 정확성을 높임.
결론
이 결과를 통해 자연어로 중간 논리를 명확히 서술하는 Chain-of-Thought 방식이 문제 해결의 성공에 필수적임이 명확히 드러납니다.
단순히 계산 자원을 늘리거나 출력 방식을 바꾸는 것만으로는 CoT가 가져오는 성능 향상을 재현할 수 없다는 점에서, CoT의 혁신적인 가치를 확인할 수 있습니다.
Robustness of Chain-of-Thought (CoT) Prompting
1. 연구 목적 및 Figure 6의 역할
CoT Prompting의 강점 중 하나는 여러 변수(예: Annotator, 예제 스타일, 예제 순서)에 대해 일관된 성능 향상을 보여주는 Robustness(견고성)이다.
Figure 6에서는 CoT Prompting이 Annotator, 예제 스타일, 예제 순서, 모델 크기 등 다양한 변수에 대해 얼마나 Robust(강건)한지를 시각적으로 보여준다.
2. CoT의 Robustness를 검증한 요소들
2.1 Annotator에 따른 성능 변화
- Annotator A, B, C가 각각 다른 스타일로 Chain of Thought를 작성했음에도, 모든 경우에서 기본 Prompting(Standard Prompting)보다 높은 성능을 기록.
- Figure 6에서 GSM8K와 MAWPS 모두 Annotator 간의 약간의 성능 차이는 있지만, CoT Prompting이 항상 높은 성능을 보임.
- 결론: CoT Prompting의 성능은 특정 작성자의 언어적 스타일에 크게 의존하지 않는다.
2.2 간결한(CoT Concise Style) 예제
- Annotator A가 "더 간결한(CoT Concise Style)" 스타일로 CoT를 작성한 경우에도 성능이 크게 떨어지지 않음.
- 이는 CoT가 길고 상세한 설명만 요구하는 것이 아니라, 문제 해결의 핵심 논리만 잘 포함되면 효과적이라는 것을 보여줌.
2.3 GSM8K Training Set에서 임의로 선택된 예제
- GSM8K Training Set에서 임의로 선택한 3가지 예제 세트(α, β, γ)를 사용해도 CoT Prompting은 여전히 높은 성능을 기록.
- 결론: CoT Prompting의 성능은 특정 예제의 선택에도 Robust하며, 다양한 예제 세트에서 일관된 성능을 보인다.
2.4 예제 순서(Order of Exemplars)
- 기존 연구(Zhao et al., 2021)에서는 예제 순서가 모델 성능에 민감하게 영향을 미칠 수 있다고 보고되었지만, CoT Prompting에서는 예제 순서에 따른 성능 변화가 미미함.
- 단, 일부 Task(예: Coin Flip)에서는 예제 순서에 따른 높은 성능 편차가 관찰되었음(Table 7 참조).
2.5 모델 크기 및 종류
- CoT Prompting은 LaMDA, GPT-3, PaLM 등 다양한 모델 크기와 아키텍처에서도 높은 성능을 보였음(Table 6, Table 7 참조).
- 제한점: CoT 성능은 모델의 Pretraining 데이터나 아키텍처에 따라 다를 수 있음.
- 예: GPT-3는 CSQA 및 StrategyQA에서 CoT 효과가 제한적.
3. 결과: CoT Prompting의 Robustness가 입증된 이유
3.1 특정 스타일이나 작성자에 의존하지 않음
- CoT는 Annotator 간의 작성 스타일 차이에 민감하지 않으며, 다양한 언어적 표현 방식에서도 일관된 성능을 보여줌.
- 이는 CoT가 언어적 표현보다는 논리적 구조에 기반한다는 것을 의미.
3.2 예제 세트와 순서에도 강건함
- CoT는 예제 세트가 달라져도 높은 성능을 유지하며, 순서에 따른 민감성도 낮음.
- 이는 CoT가 논리적 사고 과정을 중심으로 학습되기 때문으로 보임.
3.3 다양한 모델에서도 높은 성능 유지
- CoT Prompting은 모델 크기와 종류에 걸쳐 일관된 성능을 보임.
- 이는 CoT의 범용적 적용 가능성을 시사.
4. 결론: Figure 6과 연구가 보여주는 CoT의 의의
- CoT Prompting은 특정 작성자, 예제 세트, 예제 순서 등에 의존하지 않고, 다양한 조건에서도 일관된 성능을 보여주는 강력한 방법론이다.
- 이러한 Robustness는 CoT가 문제 해결의 논리적 과정을 효과적으로 학습하며, 표현상의 세부 사항에 민감하지 않음을 나타낸다.
- 추가 연구 방향:
- CoT Prompting을 자동 생성하는 방법 개발.
- 다양한 데이터 분포와 언어에서 CoT Prompting의 Robustness 확장.