Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

인공지능/논문 리뷰 or 진행

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models - 논문 리뷰

이게될까 2025. 2. 18. 16:47

728x90

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

Large language models (LLMs) have recently been shown to deliver impressive performance in various NLP tasks. To tackle multi-step reasoning tasks, few-shot chain-of-thought (CoT) prompting includes a few manually crafted step-by-step reasoning demonstrati

arxiv.org

드디어 제가 찾던 Planning을 우선하고, 그 이후에 plan에 따른 Action을 진행합니다.

기존 Zero-Shot CoT는 성공에도 불구하고 여전히 계산 오류, 단계 누락, 의미적 오해라는 3가지 한계가 있어 Plan-and-Solve(PS)라는 Prompt를 제안합니다.

전체 작업을 하위 작업으로 나눈뒤, 계획에 따라 하위 작업을 수행합니다.이러한 결과 Zero-Shot CoT는 모두 뛰어넘고, 벤치마크 세트에 따라 Zero-Shot PoT, 8-Shot CoT를 능과하거나 유사한 성능을 가지게 됩니다.

이렇게 기존 Zero-Shot CoT로 해결하지 못 한 문제를 해결할 수 있게 됩니다.

프롬프트를 살짝 보안해서 PS+도 제작합니다.

지침으로는 "관련 변수와 해당 숫자를 추출", "중간 결과 계산"이 내려졌고, 추론 프로세스의 품질을 크게 개선하였습니다.

Zero-Shot에서는 PS+가 대부분의 방식보다 성능이 뛰어나고, 몇몇은 Few-Shot도 이기는 결과를 보여줍니다.

SC방식으로도 성능을 더 올릴 수 있는 것을 보여줍니다!

2025.02.11 - [인공지능/논문 리뷰 or 진행] - Self-Consistency Improves Chain of Thought Reasoning in Language Models

Self-Consistency Improves Chain of Thought Reasoning in Language Models

https://arxiv.org/abs/2203.11171 Self-Consistency Improves Chain of Thought Reasoning in Language ModelsChain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper,

yoonschallenge.tistory.com

계산적 오류, Planning 오류는 줄였지만 의미적 오류는 아직 해결 못한 모습입니다.

그래도 Zero-Shot으로 Planning을 진행하고, 그에 따른 Action을 보였다는 점에서 커다란 기여를 한 논문 중 하나라고 생각합니다.

🔍 연구 배경	- LLM(대형 언어 모델)은 다양한 NLP 문제 해결에 강력하지만, Zero-shot reasoning에서는 한계가 존재함. - 기존 Zero-shot-CoT(“Let’s think step by step”)는 reasoning을 촉진하지만, 계산 오류, reasoning 단계 누락, 의미적 오해 등의 문제가 발생함.
❗ 주요 문제점	1. 계산 오류 (7%): 수식 계산 실수 2. Reasoning 단계 누락 (12%): 문제 해결 과정에서 일부 reasoning이 생략됨 3. 의미적 오해 (27%): 문제를 잘못 이해하고 엉뚱한 reasoning을 수행
💡 연구 목표	- 기존 Zero-shot-CoT의 한계를 해결하고, 더 정확하고 체계적인 reasoning 수행을 유도하는 프롬프팅 기법 개발
🚀 제안 방법	Plan-and-Solve (PS) Prompting 1️⃣ Planning Step: 문제를 분석하고 해결 계획을 수립하도록 유도 2️⃣ Solving Step: 계획한 단계를 따라 reasoning을 수행하며, 중간 계산 결과를 명확히 포함
🆕 PS+ Prompting	PS 프롬프팅의 확장 버전 - 추가적인 지침을 포함하여 reasoning 품질 향상: ✅ 변수 추출 명시 ("Extract relevant variables and their corresponding numerals") ✅ 중간 계산 강조 ("Calculate intermediate results carefully") ✅ 논리적 일관성 강화 ("Ensure that each step logically follows from the previous one")
📊 실험 데이터셋	총 10개 데이터셋에서 평가 - 수리 추론(Arithmetic Reasoning): GSM8K, AQuA, MultiArith, AddSub, SingleEq, SVAMP - 상식 추론(Commonsense Reasoning): CommonsenseQA, StrategyQA - 기호적 추론(Symbolic Reasoning): Last Letter, Coin Flip
⚡ 실험 결과	PS+ 프롬프팅이 모든 데이터셋에서 Zero-shot-CoT 대비 성능 향상! - 수리 추론: Zero-shot-CoT 대비 평균 5~8% 성능 향상. 일부 데이터셋에서는 Few-shot-CoT와 유사한 성능 달성. - 상식 추론: CommonsenseQA(65.2% → 71.9%), StrategyQA(63.8% → 65.4%)로 성능 향상. - 기호적 추론: Last Letter(64.8% → 75.2%), Coin Flip(96.8% → 99.6%)로 개선.
🎯 오류 분석	- 계산 오류: Zero-shot-CoT(7%) → PS+(5%)로 감소 - Reasoning 단계 누락 오류: Zero-shot-CoT(12%) → PS+(7%)로 감소 - 의미적 오해 오류: 여전히 27% 수준으로 존재 (향후 해결 필요)
🔬 추가 실험	Self-Consistency(SC) 기법 적용 시 성능 향상 - GSM8K: 58.7% → 73.7% (+15%) - SVAMP: 75.7% → 84.4% (+8.7%)
📝 결론 (Conclusion)	- Plan-and-Solve 프롬프팅은 Zero-shot-CoT의 한계를 극복할 수 있는 새로운 접근법 - LLM이 reasoning을 더 체계적으로 수행하도록 유도하는 효과적 방법 - Few-shot 없이도 높은 reasoning 성능을 구현 가능
📌 연구의 의의	- LLM의 Zero-shot reasoning 품질을 단순한 프롬프팅 변경만으로 개선 가능함을 입증 - 향후 자율 AI, 과학 연구 자동화, 복잡한 문제 해결 시스템 등에 적용 가능
⚠️ 연구 한계	- 프롬프트 설계가 필요 (모델이 문장 표현에 민감함) - 의미적 오해 오류(Semantic misunderstanding errors) 해결 필요
🔎 향후 연구 방향	- 의미적 오해 오류 해결을 위한 추가적인 프롬프팅 기법 연구 - 다양한 도메인(법률, 의료, 논리 추론 등)에서 PS+ 프롬프팅의 확장 가능성 탐색 - 프롬프팅과 모델 자체의 학습을 결합하여 reasoning 성능 극대화하는 방법 연구

1. 연구 배경 및 문제 정의

최근 대형 언어 모델(LLM)은 다양한 NLP 작업에서 뛰어난 성능을 보이고 있다. 특히, 복잡한 다단계(reasoning) 문제를 해결하기 위해 Chain-of-Thought (CoT) 프롬프팅 기법이 도입되었다. CoT는 몇 가지 수작업으로 만든 예제들을 포함하여 모델이 중간 reasoning 단계를 명시적으로 생성하도록 유도한다.

그러나 이러한 Few-shot CoT 프롬프팅은 수작업 예제 설계가 필요하다는 점에서 한계가 있다. 이를 해결하기 위해 제로샷 CoT(Zero-shot-CoT)가 제안되었으며, 단순히 “Let’s think step by step” 문장을 추가하는 방식으로 LLM이 reasoning 단계를 생성하도록 유도한다.

하지만 Zero-shot-CoT는 여전히 다음과 같은 주요 문제점을 갖고 있다:

계산 오류 (7%): 수식 계산 중 발생하는 오류
단계 누락 오류 (12%): 복잡한 문제에서 reasoning 단계가 생략됨
의미적 오해 오류 (27%): 문제의 의미를 잘못 해석하여 발생하는 오류

이를 해결하기 위해 연구진은 Plan-and-Solve (PS) Prompting 기법을 제안하였다.

2. Plan-and-Solve (PS) Prompting 기법

PS 프롬프팅은 reasoning 과정을 더욱 구조적으로 유도하기 위해 두 가지 주요 단계를 포함한다.

(1) 문제 계획 단계 (Planning)

문제를 먼저 이해하고 해결 계획을 수립하도록 유도
예시 프롬프트:
“Let’s first understand the problem and devise a plan to solve the problem. Then, let’s carry out the plan and solve the problem step by step.”

(2) 문제 해결 단계 (Solving)

계획된 단계를 차례로 실행하며 문제를 해결
추가적으로 PS+ 프롬프팅에서는 변수 추출 및 중간 계산 결과를 명시적으로 다루도록 유도
예시: “Extract relevant variables and their corresponding numerals”
“Calculate intermediate results (pay attention to calculation and commonsense)”

이러한 방법을 통해 reasoning 단계의 명확성과 일관성을 개선하고, 계산 오류 및 reasoning 단계 누락 문제를 줄이는 것이 목표이다.

3. 실험 설정

(1) 벤치마크 데이터셋

총 10개의 데이터셋에서 실험을 수행:

수리 추론 (Arithmetic Reasoning)
- GSM8K, AQuA, MultiArith, AddSub, SingleEq, SVAMP
상식 추론 (Commonsense Reasoning)
- CommonsenseQA, StrategyQA
기호적 추론 (Symbolic Reasoning)
- Last Letter, Coin Flip

(2) 비교 대상 방법

Zero-shot-CoT: 기존의 제로샷 체인 오브 쏘트 방법
Zero-shot-PoT: 프로그램 형태로 reasoning을 분리하여 수행하는 방법
Few-shot-CoT (Manual, Auto): 사람이 직접 만든 몇 가지 예시(Few-shot)로 reasoning을 유도하는 방법

4. 실험 결과

(1) 수리 추론 성능

PS+ 프롬프팅이 기존 Zero-shot-CoT 대비 평균 5% 이상 정확도가 증가.
GSM8K에서는 2.9% 증가했지만, 다른 데이터셋에서는 최소 5%~8% 향상.
Zero-shot-PoT보다도 대부분의 데이터셋에서 더 나은 성능을 보임.
Few-shot CoT(Manual)와 비교해도 유사한 성능을 보이며, Auto-CoT보다 높은 성능을 보임.

(2) 상식 추론 성능

CommonsenseQA에서 Zero-shot-CoT(65.2%) 대비 PS+ (71.9%)가 더 높은 성능.
StrategyQA에서도 PS+ (65.4%)가 Zero-shot-CoT(63.8%) 대비 성능이 향상됨.

(3) 기호적 추론 성능

Last Letter와 Coin Flip 데이터셋에서도 Zero-shot-CoT보다 높은 성능을 보임.
특히, Coin Flip에서는 Few-shot-CoT(100%)와 거의 동일한 99.6% 정확도를 기록.

5. 분석 및 추가 실험

(1) Self-Consistency 적용 결과

Self-Consistency(SC) 기법(같은 문제를 여러 번 해결하여 다수결로 정답을 결정)을 적용한 경우, GSM8K와 SVAMP에서 PS+의 성능이 더 크게 향상됨.
Zero-shot-CoT 대비 GSM8K에서 3.0%, SVAMP에서 2.7% 성능 향상.

(2) 프롬프팅 문장의 효과 분석

단순히 “Let’s think step by step”을 사용하는 것보다 “Plan-and-Solve” 전략을 명확히 제시하는 프롬프팅이 더 나은 성능을 보임.
특히 변수 추출, 중간 계산 결과 명시 등의 추가적인 지침이 포함된 PS+ 프롬프팅이 가장 좋은 성능을 보임.

(3) 오류 유형 분석

Zero-shot-CoT와 비교했을 때, PS+ 프롬프팅이 계산 오류(7% → 5%) 및 단계 누락 오류(12% → 7%)를 줄이는 효과가 있음.
다만, 의미적 오해 오류(27%)는 여전히 해결되지 않음.

6. 결론 및 향후 연구 방향

(1) 결론

Zero-shot-CoT가 가지는 한계를 보완하기 위해 Plan-and-Solve(PS) 프롬프팅 기법을 제안.
PS+ 프롬프팅은 계산 오류 및 reasoning 단계 누락 문제를 효과적으로 줄이고, 성능을 향상.
Zero-shot-CoT 대비 일관되고 체계적인 reasoning 과정을 유도하며, 일부 데이터셋에서는 Few-shot-CoT 수준의 성능을 보임.

(2) 향후 연구 방향

의미적 오해 오류를 줄이기 위한 추가적인 프롬프팅 기법 연구.
다양한 도메인에서 PS+ 프롬프팅의 확장 가능성 검토.
프롬프팅과 모델 자체의 학습을 결합하여 reasoning 성능을 극대화하는 방법 탐색.

7. 연구의 의의 및 시사점

이 논문은 제로샷 환경에서 대형 언어 모델의 reasoning 능력을 극대화하는 방법을 연구한다는 점에서 중요한 기여를 한다. 기존 제로샷 CoT가 가진 한계를 극복하면서도, 수작업이 필요한 Few-shot CoT에 근접하는 성능을 달성했다는 점에서 의미가 크다.

향후 AGI 연구에서 LLM이 보다 자율적이고 체계적으로 reasoning을 수행할 수 있도록 프롬프팅 기법을 설계하는 것이 핵심 과제가 될 것이며, 본 연구는 이를 위한 중요한 단서를 제공한다고 볼 수 있다.

1. 연구의 핵심 목표

기존의 Zero-shot-CoT 방법은 "Let's think step by step"이라는 단순한 프롬프팅만으로 LLM이 reasoning 단계를 생성하도록 유도하지만, 계산 오류, reasoning 단계 누락, 의미적 오해 등의 문제가 발생한다.
이를 해결하기 위해 연구진은 Plan-and-Solve (PS) Prompting을 제안하여 reasoning을 좀 더 구조적으로 수행할 수 있도록 유도했다.

2. Plan-and-Solve (PS) Prompting의 원리

PS 프롬프팅은 두 가지 주요 단계를 포함한다.

문제 계획 단계 (Planning Step)
- 먼저 문제를 이해하고, 해결 계획을 세우도록 유도한다.
- 문제를 세부 단위로 나누어 순차적으로 해결할 수 있도록 프롬프트를 설계한다.
문제 해결 단계 (Solving Step)
- 계획을 기반으로 문제를 해결하며, reasoning 과정이 논리적으로 일관되게 생성되도록 한다.
- 계산 과정과 중간 결과를 명확하게 포함하여 reasoning 오류를 줄인다.

➡️ 기존 Zero-shot-CoT vs. Plan-and-Solve Prompting 비교

방법	프롬프팅 방식	문제 해결 방식	주요 한계
Zero-shot-CoT	"Let's think step by step"	직관적으로 reasoning을 수행하지만, 구조적 계획이 없음	계산 오류, reasoning 단계 누락 발생 가능
Plan-and-Solve	"Let's first devise a plan, then execute it"	먼저 계획을 세운 후, 단계별로 reasoning 수행	더 명확한 reasoning 과정 유도

3. Plan-and-Solve (PS) Prompting의 단계별 구성

Step 1: 문제 계획 단계 (Devising a Plan)

이 단계에서는 LLM이 먼저 문제를 분석하고 해결 전략을 세울 수 있도록 프롬프트를 제공한다.
즉, 문제를 해결하는 첫 번째 과정으로 세부적인 계획을 수립하도록 유도하는 것이 핵심이다.

💡 예제 1: 단순 수리 문제
문제:

한 상자에 사과가 12개씩 들어있고, 총 5개의 상자가 있다. 모든 사과의 총 개수는 얼마인가?

🔹 Zero-shot-CoT 방식
"Let's think step by step" →

12 × 5 = 60, 정답: 60개

🔹 Plan-and-Solve 방식
"Let's first understand the problem and devise a plan. Then, let's carry out the plan and solve the problem step by step."
계획:

한 상자에 들어있는 사과 개수를 확인한다.
총 상자 개수를 확인한다.
두 값을 곱하여 전체 사과 개수를 구한다.

답변 예시:

상자 하나에 사과가 12개 있다.
총 5개의 상자가 있다.
따라서 총 사과 개수는 12 × 5 = 60개이다.

📌 핵심 포인트:

문제를 여러 개의 작은 단계로 나눠 LLM이 reasoning 단계를 건너뛰지 않도록 유도한다.

Step 2: 문제 해결 단계 (Executing the Plan)

이 단계에서는 앞서 수립한 계획을 구체적으로 실행하여 답을 도출하도록 유도한다.
추가적인 지침(extract relevant variables, calculate intermediate results 등)을 추가하여 reasoning 오류를 줄이는 것이 핵심이다.

💡 예제 2: 좀 더 복잡한 문제 (단위 변환 포함)
문제:

제니는 하루에 1.5리터의 물을 마신다. 일주일 동안 제니가 마시는 총 물의 양은 몇 리터인가?

🔹 Plan-and-Solve 프롬프팅 적용
"Let's first understand the problem, extract relevant variables and their corresponding numerals, and devise a plan. Then, let's carry out the plan and solve the problem step by step."

계획 수립:

하루에 마시는 물의 양을 확인한다. (1.5리터)
일주일의 총 일수를 확인한다. (7일)
두 값을 곱하여 일주일 동안 마시는 총 물의 양을 계산한다.

계산 과정:

1.5리터 × 7일 = 10.5리터

📌 핵심 포인트:

변수 추출(variable extraction)을 통해 LLM이 필요한 정보를 빠뜨리지 않도록 유도한다.
중간 계산(intermediate calculations)을 포함하여 계산 오류를 줄인다.

4. PS+ (Plan-and-Solve Plus) 프롬프팅

기본 PS 프롬프팅을 개선하여, 계산 오류를 더욱 줄이고 reasoning 품질을 높이기 위해 추가적인 가이드라인을 제공하는 방식이다.

💡 PS+의 주요 추가 요소:

변수 추출 명시: "Extract relevant variables and their corresponding numerals."
중간 계산 강조: "Calculate intermediate results carefully (pay attention to calculation and commonsense)."
논리적 일관성 강화: "Ensure that each step logically follows from the previous one."

🔹 예제 3: PS+ 적용 (좀 더 복잡한 문제)
문제:

한 농장에서 닭 20마리와 양 15마리를 키우고 있다. 닭의 다리는 2개씩, 양의 다리는 4개씩 있다고 할 때, 이 농장에서 키우는 동물들의 총 다리 개수는 몇 개인가?

🔹 PS+ 프롬프팅 적용
"Let's first understand the problem, extract relevant variables and their corresponding numerals, and devise a complete plan. Then, let's carry out the plan, calculate intermediate results, solve the problem step by step, and show the answer."

계획 수립:

닭의 다리 개수를 구한다. (닭 1마리당 2개)
양의 다리 개수를 구한다. (양 1마리당 4개)
두 값을 합산하여 총 다리 개수를 계산한다.

계산 과정:

닭 다리 수: 20 × 2 = 40
양 다리 수: 15 × 4 = 60
총 다리 수: 40 + 60 = 100

📌 PS+의 장점:

변수 추출, 중간 계산을 명확히 함으로써 reasoning 오류를 최소화
보다 논리적으로 일관된 reasoning 과정 유도

5. 실험 결과 요약

(1) 기존 방법 대비 PS(+) 프롬프팅의 성능 향상

Zero-shot-CoT 대비 5~8% 성능 향상
Zero-shot-PoT보다도 높은 성능을 보임
Few-shot CoT와 비슷한 수준의 성능을 달성

(2) 오류 감소 효과

방법	계산 오류	reasoning 단계 누락 오류
Zero-shot-CoT	7%	12%
PS	7%	10%
PS+	5%	7%

PS+ 프롬프팅은 특히 계산 오류(7% → 5%) 및 reasoning 단계 누락(12% → 7%)을 줄이는 데 효과적임.

6. 결론 및 시사점

Plan-and-Solve(PS) 프롬프팅은 LLM의 reasoning 능력을 극대화하는 새로운 방식으로,
기존 Zero-shot-CoT의 한계를 극복하고 보다 일관되고 체계적인 reasoning을 유도할 수 있음을 실험적으로 입증했다.

향후 AGI 개발에서 LLM이 보다 자율적이고 체계적으로 reasoning을 수행하도록 하는 핵심 기법이 될 가능성이 크며,
연구자들이 다양한 문제 해결에 적용할 수 있는 강력한 도구가 될 것이다. 🚀

1. 실험 결과 요약

연구진은 제안한 Plan-and-Solve (PS) 및 PS+ 프롬프팅 기법을 기존 Zero-shot 및 Few-shot CoT 프롬프팅과 비교하여 10개의 데이터셋에서 실험을 진행했다. 실험 결과는 다음과 같다.

(1) 수리 추론 (Arithmetic Reasoning)

PS+ 프롬프팅이 Zero-shot-CoT보다 최소 5~8% 향상된 성능을 기록.
특히 GSM8K 데이터셋에서는 2.9% 향상, 다른 데이터셋에서는 5% 이상 개선됨.
Zero-shot-PoT보다도 높은 성능을 보이며, 일부 경우 Few-shot CoT(Manual)와 유사한 성능을 달성.

(2) 상식 추론 (Commonsense Reasoning)

CommonsenseQA:
- Zero-shot-CoT(65.2%) 대비 PS+ (71.9%)가 더 높은 성능을 기록.
StrategyQA:
- Zero-shot-CoT(63.8%) 대비 PS+ (65.4%)가 성능이 향상됨.
상식 추론에서도 Plan-and-Solve 방식이 reasoning 품질을 향상시키는 효과가 있음.

(3) 기호적 추론 (Symbolic Reasoning)

Last Letter: PS+ (75.2%) > Zero-shot-CoT (64.8%)
Coin Flip: PS+ (99.6%) > Zero-shot-CoT (96.8%)
- Few-shot-CoT(100%)와 거의 동등한 성능을 보임.

➡️ 결론: PS+ 프롬프팅은 수리, 상식, 기호적 reasoning 문제에서 일관된 성능 향상을 보이며, Zero-shot-CoT를 효과적으로 개선하는 방법임.

2. 추가 실험 및 분석

(1) Self-Consistency(SC) 기법 적용

Self-Consistency(SC) 기법을 적용한 경우, GSM8K와 SVAMP 데이터셋에서 PS+ 성능이 크게 향상됨.
- GSM8K: 58.7% → 73.7% (+15%)
- SVAMP: 75.7% → 84.4% (+8.7%)
SC 적용 시에도 Zero-shot-CoT 대비 PS+가 더 높은 성능을 유지함.

(2) 프롬프팅 문장의 효과 분석

기존의 "Let’s think step by step" 대신 "Let's first devise a plan, then execute it"를 사용하면 성능이 더 향상됨.
특히, 변수 추출 및 중간 계산 결과를 포함한 PS+ 프롬프팅이 가장 좋은 성능을 보임.

(3) 오류 유형 분석

Zero-shot-CoT 대비 PS+ 프롬프팅이 계산 오류 및 reasoning 단계 누락 오류를 줄이는 효과가 있음.

방법 계산 오류 reasoning 단계 누락 오류

Zero-shot-CoT 7% 12%

PS 7% 10%

PS+ 5% 7%

➡️ 결론: PS+ 프롬프팅이 LLM의 reasoning 과정에서 일관성과 정확성을 높이며, 계산 오류와 reasoning 누락 오류를 줄이는 데 효과적임.

3. 결론 (Conclusion)

(1) 연구의 주요 기여

Zero-shot-CoT의 한계를 극복
- 기존 Zero-shot-CoT가 가진 계산 오류, reasoning 단계 누락, 의미적 오해 오류를 해결하기 위해 Plan-and-Solve 프롬프팅 기법을 제안.
구조적인 reasoning 과정 유도
- LLM이 문제를 단계적으로 이해하고 해결하도록 "계획 수립(Planning) → 실행(Solving)" 과정으로 reasoning을 개선함.
Zero-shot 환경에서도 Few-shot CoT 수준의 성능 달성
- Zero-shot-CoT 대비 5~8% 성능 향상, 일부 데이터셋에서는 Few-shot-CoT 수준의 성능을 기록.

(2) 연구의 한계점

프롬프트 디자인이 필요함
- LLM이 민감하게 반응하는 프롬프팅 문장을 적절히 설계해야 하는 부담이 있음.
의미적 오해 오류(Semantic Misunderstanding Errors) 해결 필요
- PS+ 프롬프팅으로 계산 및 reasoning 단계 누락 문제는 감소했지만, 문제 자체를 오해하는 오류(semantic misunderstanding)는 여전히 남아 있음.

➡️ 후속 연구 방향:

의미적 오해 오류를 줄일 수 있는 추가적인 프롬프팅 기법 연구
다양한 도메인(법률, 의료, 논리 추론 등)에서 PS+ 프롬프팅의 확장 가능성 탐색
프롬프팅과 모델 자체의 학습을 결합하여 reasoning 성능 극대화하는 방법 연구

4. 연구의 의의 및 시사점

(1) LLM의 reasoning 능력을 향상시키는 새로운 접근법

기존의 Zero-shot-CoT가 reasoning 품질에 한계가 있었던 반면, Plan-and-Solve 프롬프팅은 reasoning 과정을 더 체계적으로 유도하는 새로운 방식을 제시.

(2) Few-shot 없이도 고품질 reasoning 가능

기존 Few-shot-CoT 수준의 reasoning 성능을 Zero-shot 환경에서도 구현할 수 있도록 개선함.
이는 프롬프팅만으로 LLM의 reasoning 능력을 향상시킬 수 있음을 실험적으로 입증한 사례.

(3) AGI(인공지능 일반화) 연구에 기여

향후 AGI 연구에서 LLM이 더욱 자율적이고 체계적으로 reasoning을 수행할 수 있도록 하는 중요한 기법이 될 가능성이 큼.
reasoning 능력이 중요한 자율 AI 에이전트, 자동화된 문제 해결 시스템, 과학 연구 AI 등 다양한 분야에 활용될 수 있음.

5. 마무리

이 논문은 LLM이 reasoning을 수행하는 방식을 근본적으로 개선할 수 있는 새로운 Zero-shot 프롬프팅 기법을 제안했다.
Plan-and-Solve 프롬프팅 기법은 기존 Zero-shot-CoT가 가진 한계를 극복하면서도, 수작업이 필요한 Few-shot-CoT와 유사한 성능을 달성했다.

이 연구는 단순한 프롬프팅 방식 변경만으로도 LLM의 reasoning 품질을 크게 향상시킬 수 있음을 보여준다는 점에서 중요한 의미를 갖는다.
향후 LLM을 활용한 다양한 문제 해결 및 자율 AI 연구에서 Plan-and-Solve 프롬프팅 기법은 매우 강력한 도구가 될 것이다. 🚀

저작자표시 비영리

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

LLM Diffusion 논문 리뷰 - Large Language Diffusion Models (0)	2025.02.19
Planning with Multi-Constraints via Collaborative Language Agents - 논문 리뷰 (0)	2025.02.18
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents - 논문 리뷰 (0)	2025.02.18
Understanding the planning of LLM agents: A survey - 논문 리뷰 (1)	2025.02.18
Dynamic Planning for LLM-based Graphical User Interface Automation - 논문 리뷰 (1)	2025.02.18

현재글Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models - 논문 리뷰

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31