인공지능/논문 리뷰 or 진행

PoT, RoT, SoT, CoCoT, Active Prompt - 논문 리뷰

이게될까 2025. 2. 13. 21:11
728x90
728x90

하나 하나 따로 하기엔 양이 애매하거나, 저는 동의하지 못하는 부분이 있는 논문들이라 하나로 뭉쳤습니다.

https://arxiv.org/abs/2211.12588

 

Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks

Recently, there has been significant progress in teaching language models to perform step-by-step reasoning to solve complex numerical reasoning tasks. Chain-of-thoughts prompting (CoT) is by far the state-of-art method for these tasks. CoT uses language m

arxiv.org

CoT는 강력한 방법이지만 계산 오류, 복잡한 수학적 연산 불가능, 비효율적 반복이라는 한계갸 있다.

이걸 이겨내기 위해 Program of Thoughts 를 제안 

과정은 진짜 단순합니다.

LLM이 Python 코드 형태로 Reasoning을 표현하고, 복잡한 연산은 외부 프로그램인 Python Interpreter에 전가하여 수학적 계산을 수행하는 부담을 줄이고, 신뢰성을 높입니다.

  CoT PoT
추론 방식 자연어로 추론 단계 서술 Python 코드로 추론 단계 표현
계산 수행 LLM이 직접 수행 Python Interpreter가 수행
오류 가능성 계산 오류 발생 가능 신뢰성 높은 계산 가능
복잡한 연산 가능 여부 고차원 방정식 해결 어려움 Python 라이브러리(SymPy 등) 활용 가능

이러한 Python의 활용으로 높은 성능 향상을 가져옵니다.

여기서도 Few-shot, Zero-shot 모두 활용되는 것을 볼 수 있습니다.

성공적으로 높은 성능을 가져 SoTA를 달성합니다.

 

https://arxiv.org/abs/2306.06891

 

Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models

Generating intermediate steps, or Chain of Thought (CoT), is an effective way to significantly improve language models' (LM) multi-step reasoning capability. However, the CoT lengths can grow rapidly with the problem complexity, easily exceeding the maximu

arxiv.org

여기선 CoT의 Context Length가 너무 길어지니 특수 토큰으로 문제를 재귀적으로 쪼개면서 해결할 수 있도록 만들었습니다.

이런 방식을 통해 최대 토큰이 2048인 LM에서도 64자리 숫자의 덧셈, 32자리 곱셈을 진행하여 해결하였습니다.

그러나 Supervised Learning을 진행해야 하고, 일반화가 부족하다는 문제가 있습니다

 

https://arxiv.org/abs/2307.15337

 

Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated

arxiv.org

언어 모델은  Sequential decoding을 진행하는데, 토큰을 하나씩 생성하기에 전체적인 응답시간이 길어집니다.

이에 따라 추론 속도를 향상시키기 위해 병렬 생성 방법을 통해 데이터 중심적 최적화를 진행하려고 합니다.

1단계 (Skeleton Stage)에서는 LLM의 핵심 답변을 구조화된 리스트 형태(개요)로 생성하도록 유도해 짧고 요약된 개요만 포함하도록 합니다.

2단계(Point Expanding Stage)에선 병렬적으로 각 개요 포인트를 확장하여 최종적으로 모든 포인트를 결합해 완전한 답변을 생헝합니다.

이 방식은 수학과 같이 독립적으로 진행할 수 없는 곳에선 사용할 수 없었습니다.

그러나 지식, 상식, 역할극, 반사실 질문에서 높은 품질의 응답을 제공하고, 속도도 증가하게 되었습니다.

그리하여 라우터도 만들어서 SoT를 진행할 지 하지 않을지를 결정하는 것을 만들어 답변 품질도 높이게 됩니다. 

수학을 못한다는게 흠이네요. 수학을 못 하면 코딩도 못 할테니..

기법 개념 주요 특징 병렬 처리 적용 가능한 문제 유형 장점
CoT (Chain-of-Thoughts) 체인 형태로 사고 과정을 단계별로 전개 "Let's think step by step" 방식, 논리적 추론 강화 ✗ (순차적) 단계적 논리 추론 (수학, 논리적 문제 해결) 높은 정밀도, 논리적 오류 감소
ToT (Tree-of-Thoughts) 나무 구조로 사고 전개, 여러 경로를 탐색하며 최적의 경로 선택 여러 해결책을 분기별로 생성 후 평가 ✗ (순차적, 다중 경로) 창의적 문제 해결 (퍼즐, 게임 전략) 탐색적 사고 강화, 복잡한 문제 해결 가능
GoT (Graph-of-Thoughts) 그래프 구조로 사고 확장, 포인트 간 연결성을 반영 노드 간의 상호작용 고려하여 최적의 해결법 도출 ✗ (순차적, 비순차적 혼합) 계층적 사고가 필요한 문제 (지식 기반 질문, 기획) 유연한 문제 해결, 비순차적 사고 가능
SoT (Skeleton-of-Thoughts) 먼저 개요(Skeleton) 생성 후 병렬적으로 확장 구조화된 답변 생성, 여러 포인트 동시 확장 ✓ (병렬 처리 가능) 장문 생성, 설명형 답변 (에세이, 가이드, 보고서) 빠른 생성 속도, 내용 구성력 향상

 

https://arxiv.org/abs/2311.09277

 

Contrastive Chain-of-Thought Prompting

Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minima

arxiv.org

인간이 올바른 예제 뿐만이 아니라 잘 못된 예제에서도 배운다는 것에 따라 긍정적인 예제와 부정적 예제 모두를 함계 제공하는 CoCoT기법을 제안하였습니다.

잘못된 유형은 아래와 같이 5개로 표현되었다.

 

  • Invalid Reasoning: 논리적 오류 포함
  • Incoherent Objects: 중간 과정에서 잘못된 숫자/대상 사용
  • Incoherent Language: 문장 구조가 어색하여 논리가 흐려짐
  • Irrelevant Objects: 문제와 무관한 개체가 포함됨
  • Irrelevant Language: 문제와 상관없는 설명이 포함됨

 

이렇게 진행하여 기존 CoT보다 높은 성과를 가지긴 했다.

그러나 ToT나 CoT에 비교를 하면 좀 더 다른 결과가 나올 것 같은데, 거기에도 적용할 수 있는 방법이니 설명할 수 없다는 것이 너무 아쉬울 뿐이다.

https://arxiv.org/abs/2302.12246

 

Active Prompting with Chain-of-Thought for Large Language Models

The increasing scale of large language models (LLMs) brings emergent abilities to various complex tasks requiring reasoning, such as arithmetic and commonsense reasoning. It is known that the effective design of task-specific prompts is critical for LLMs'

arxiv.org

 

잉 Auto-CoT가 생각보다 점수가 낮네요,,?

 

 

728x90