인공지능/논문 리뷰 or 진행

Understanding the planning of LLM agents: A survey - 논문 리뷰

이게될까 2025. 2. 18. 14:11
728x90
728x90

https://arxiv.org/abs/2402.02716

 

Understanding the planning of LLM agents: A survey

As Large Language Models (LLMs) have shown significant intelligence, the progress to leverage LLMs as planning modules of autonomous agents has attracted more attention. This survey provides the first systematic view of LLM-based agents planning, covering

arxiv.org

 

첫 번째 Planning Survey논문이라네요

Task Decomposition은 분할 정복의 아이디어를 채택하여 복잡한 작업을 여러 개의 하위 작업으로 분해, 각 하위 작업에 대해 순차적으로 계획하여 진행합니다. 

Task Decomposition

 

Multi-plan Selection는 LLM이 더 많은 생각을 진행할 수 있도록 진행하고, 작업에 대한 다양한 대안 계획을 생성합니다.

그 후 Task관련 Search Algorithm(F)을 통해 실행할 계획 하나를 선택합니다. (ex. ToT, GoT)

Multi-plan Selection

 

External Planner-Aided Planning은 외부 플래너(p)를 통해 규칙에 따라 정리된 환경과 목표(h)로 새로운 계획을 생성합니다. 

External Planner-Aided Planning

 

Reflection and Refinement은 반성과 개선을 통해 계획 능력을 향상 시키는 것을 강조한다. 

LLM이 실패를 반성하고 계획을 반성하는 것을 장려해 능력을 지속적으로 향상시킨다.

Reflection and Refinement

 

Memory-augmented Planning은 추가 메모리 모듈(M)을 통해 저장된 정보로 계획을 생성합니다.

Memory-augmented Planning.

 

Decomposition-First 

Task를 하위 목표로 분해 후 차례대로 해결 

HuggingGPT - 이미지 생성, 분류, 비디오 주석, STT 등 다양한 작업을 진행하며, 모델 간 협업을 용이하기 위해 LLM이 컨트롤러 역할을 하여 입력한 작업을 분해, 모델 선택, 최종 응답 생성.

 

Interleaved

CoT Series, ReAct 등이 이 방법과 같다.

 

 

논문의 핵심 주제 LLM을 활용한 자율 에이전트의 계획(Planning) 능력을 체계적으로 분석하고 분류
기존 방법론의 한계 - 기호 기반 계획 (Symbolic Planning): 변환 과정이 복잡하고 인간 전문가 개입 필요
- 강화학습 기반 계획 (RL-Based Planning): 많은 데이터 요구, 학습 비용 높음
LLM 기반 계획 방식의 주요 분류 1. 과업 분해 (Task Decomposition)
2. 다중 계획 선택 (Multi-Plan Selection)
3. 외부 계획 모듈 활용 (External Planner-Aided Planning)
4. 반성 및 수정 (Reflection & Refinement)
5. 메모리 확장 기반 계획 (Memory-Augmented Planning)
각 분류별 핵심 내용 ① 과업 분해 (Task Decomposition)
- 복잡한 문제를 작은 하위 문제로 나누어 해결
- 대표 기법: CoT, ReAct, HuggingGPT
- 장점: 복잡한 작업을 처리 가능
- 단점: 지나치게 많은 세분화 시 비효율적
② 다중 계획 선택 (Multi-Plan Selection)
- 여러 개의 계획을 생성 후 최적의 계획 선택
- 대표 기법: Self-Consistency, ToT, LLM-MCTS
- 장점: 더 나은 계획 선택 가능
- 단점: 연산 비용 증가, 최적 계획 평가 능력 부족
③ 외부 계획 모듈 활용 (External Planner-Aided Planning)
- LLM이 기호 기반 또는 신경망 기반 플래너와 협력하여 계획 수행
- 대표 기법: LLM+PDDL, LLM+ASP, SwiftSage
- 장점: 외부 지식과 결합 가능
- 단점: 환경과의 통합이 복잡
④ 반성 및 수정 (Reflection & Refinement)
- LLM이 실패를 학습하고 수정하는 기능 추가
- 대표 기법: Self-Refine, Reflexion, CRITIC
- 장점: 오류 수정 가능
- 단점: 지속적인 개선을 보장할 수 없음
⑤ 메모리 확장 기반 계획 (Memory-Augmented Planning)
- 과거 경험을 기억하고 활용하여 더 나은 계획 생성
- 대표 기법: RAG, MemGPT, AgentTuning
- 장점: 장기적인 학습 가능
- 단점: 저장된 정보의 정확성 의존
LLM 에이전트 평가 방식 1. 상호작용 게임 환경 (Interactive Gaming Environments)
- Minecraft, ALFWorld, ScienceWorld
- 평가 지표: 성공률(SR), 보상 점수(AR), 수행 비용(EX)
2. 상호작용 검색 환경 (Interactive Retrieval Environments)
- HotPotQA, FEVER, WebShop
- 평가 지표: 검색 성공률, 정보 획득 정확도
3. 상호작용 프로그래밍 환경 (Interactive Programming Environments)
- AgentBench, MiniWoB++
- 평가 지표: 코드 실행 성공률, 문제 해결률
실험 결과 요약 - 성능이 높을수록 비용(EX, 토큰 사용량) 증가
- Few-shot 방법이 Zero-shot보다 성능 우수
- Reflexion(반성 기반 방법)이 복잡한 문제에서 가장 높은 성공률 기록
미래 연구 방향 1. 환각(Hallucination) 문제 해결: LLM이 비현실적인 계획을 생성하는 문제
2. 계획의 타당성 검토: LLM이 복잡한 제약 조건을 만족하는 계획을 생성하는 것이 어려움
3. 효율적인 계획 생성: 현재 방식은 탐욕적(greedy) 계획 방식으로 최적화가 부족
4. 다중 모달 환경 대응: LLM이 이미지, 음성 등의 피드백을 활용할 수 있도록 연구 필요
5. 정밀한 평가 지표 개발: 현재 벤치마크는 단순 성공률 위주로 설계되어 있어 세밀한 평가 기준 필요
논문의 의의 - LLM을 활용한 계획 능력 연구의 첫 번째 체계적 조사 논문
- LLM 기반 에이전트가 기존 계획 방법론의 한계를 어떻게 극복할 수 있는지 정리
- 향후 연구를 위한 문제점과 개선 방향 제시

 

1. 연구 개요

이 논문은 대형 언어 모델(LLM)을 활용한 계획(Planning) 기능을 가진 자율 에이전트 연구를 체계적으로 정리한 첫 번째 설문조사 논문이다. 기존의 기호기반(Symbolic) 계획과 강화학습 기반 계획의 한계를 지적하며, LLM이 이러한 한계를 어떻게 극복할 수 있는지에 초점을 맞춘다.

논문에서는 LLM을 기반으로 한 계획 방법을 다섯 가지 주요 카테고리로 분류하고, 각각의 방향성을 정리 및 분석한다.

  • 과업 분해(Task Decomposition)
  • 다중 계획 선택(Multi-Plan Selection)
  • 외부 계획 모듈 활용(External Planner-Aided Planning)
  • 반성 및 수정(Reflection & Refinement)
  • 메모리 확장 기반 계획(Memory-Augmented Planning)

이를 통해 LLM 에이전트의 계획 능력 개선을 위한 다양한 접근법과 앞으로의 연구 방향을 제시한다.


2. 기존 계획 방법과 한계점

기존의 계획 방법은 크게 두 가지로 나뉜다.

  1. 기호 기반 계획(Symbolic Planning)
    • PDDL(Planning Domain Definition Language) 등의 기호 모델을 사용해 계획을 수행.
    • 인간 전문가의 개입이 필요하고, 오류 내성이 낮음.
  2. 강화학습 기반 계획(RL-Based Planning)
    • 강화학습 정책 네트워크를 통해 계획을 생성.
    • 환경과의 상호작용 데이터가 많이 필요하며, 학습 비용이 높음.

이러한 기존 방법론의 한계를 극복하기 위해, LLM을 기반으로 한 계획 모델이 새롭게 주목받고 있다.


3. LLM 기반 계획 방법의 분류

논문에서는 LLM을 활용한 계획 방법을 다섯 가지로 분류하고, 각 접근법의 핵심 아이디어와 한계를 분석한다.

(1) 과업 분해(Task Decomposition)

  • 복잡한 계획 문제를 여러 개의 하위 과업으로 나누어 해결하는 방법.
  • 인간의 "분할 정복(Divide & Conquer)" 전략을 활용.
  • 대표적인 기법:
    • CoT(Chain of Thought)
    • ReAct(Reasoning + Acting)
    • HuggingGPT (다양한 모델을 조합하여 과업을 수행)
  • 한계점:
    • 전체적인 계획의 일관성을 유지하기 어려움.
    • 너무 많은 하위 계획이 생성되면 메모리와 연산 비용 증가.

(2) 다중 계획 선택(Multi-Plan Selection)

  • LLM이 여러 개의 후보 계획을 생성하고 최적의 계획을 선택하는 방식.
  • 대표적인 기법:
    • Self-Consistency: 다수의 추론 경로를 생성한 후, 최빈값을 정답으로 선택.
    • Tree-of-Thought(ToT): 여러 계획을 생성 후, 트리 탐색 기법을 활용해 최적의 계획을 선택.
    • LLM-MCTS: 몬테카를로 트리 탐색(MCTS)을 통해 계획을 평가하고 선택.
  • 한계점:
    • 다중 계획을 생성하는 과정에서 연산 비용이 크게 증가.
    • LLM이 최적의 계획을 평가하는 능력이 완벽하지 않음.

(3) 외부 계획 모듈 활용(External Planner-Aided Planning)

  • LLM이 직접 계획을 수행하는 것이 아니라, 외부의 기호 기반 또는 신경망 기반 계획 모듈과 협력하는 방식.
  • 대표적인 기법:
    • LLM+PDDL: LLM이 PDDL 언어를 생성하고, 기호 계획기를 활용해 최적의 계획을 생성.
    • LLM+ASP(Answer Set Programming): LLM이 논리 프로그램을 생성하고, ASP 솔버를 활용해 계획을 실행.
    • SwiftSage: LLM과 강화학습 정책 네트워크를 결합하여 빠른 의사결정이 가능하도록 설계.
  • 한계점:
    • 기호 기반 방법과 결합 시, LLM이 적절한 형식의 입력을 생성해야 하는 추가적인 문제 발생.
    • 외부 모듈과의 통합이 복잡하여 실시간 계획 적용이 어려울 수 있음.

(4) 반성 및 수정(Reflection & Refinement)

  • LLM이 자체적으로 계획을 반성하고 수정하는 능력을 가지도록 설계하는 방식.
  • 대표적인 기법:
    • Self-Refine: LLM이 생성한 계획에 대한 피드백을 스스로 생성하고 수정.
    • Reflexion: 에이전트가 오류를 감지하면 이를 반성하고 새로운 계획을 생성.
    • CRITIC: 외부 지식 베이스를 활용해 LLM이 계획을 검증하고 수정.
  • 한계점:
    • LLM의 반성이 지속적으로 개선된 계획으로 이어질 것이라는 보장이 없음.
    • 피드백이 정확하지 않을 경우 잘못된 수정이 반복될 가능성 존재.

(5) 메모리 확장 기반 계획(Memory-Augmented Planning)

  • LLM이 과거의 경험을 기억하고, 이를 활용하여 더 나은 계획을 생성하는 방법.
  • 대표적인 기법:
    • RAG-based Memory (Retrieval-Augmented Generation): 저장된 지식을 검색하여 활용.
    • Embodied Memory: 과거의 상호작용 데이터를 기반으로 LLM을 추가 학습.
    • MemGPT: LLM이 자체적으로 중요한 정보를 저장하고 필요할 때 불러옴.
  • 한계점:
    • 검색 기반 방법은 저장된 정보가 많을수록 검색 성능 저하 가능.
    • 파라미터 튜닝을 통한 학습 기반 메모리는 높은 비용이 요구됨.

4. 성능 평가 및 실험 결과

논문에서는 LLM 에이전트의 계획 능력을 평가하기 위해 네 가지 대표적인 벤치마크를 활용했다.

  1. ALFWorld: 텍스트 기반 가상 환경에서의 계획 수행.
  2. ScienceWorld: 과학 실험 관련 계획 수행.
  3. HotPotQA: 복잡한 질의응답 문제 해결.
  4. FEVER: 사실 검증 과제.

LLM의 계획 방식(CoT, Reflexion, ReAct 등)을 비교한 결과:

  • 계획 생성 시, 더 많은 토큰을 사용할수록 성능이 향상됨.
  • Few-shot 예제가 Zero-shot 방식보다 성능이 우수함.
  • Reflexion과 같은 반성 기반 기법이 복잡한 문제에서 더 높은 성공률을 보임.

5. 결론 및 미래 연구 방향

논문에서는 LLM 기반 계획 방법이 기존 방법론보다 강력하지만, 여전히 해결해야 할 문제들이 존재한다고 지적한다.

주요 도전 과제

  1. 환각(Hallucination) 문제: LLM이 현실에 존재하지 않는 정보를 기반으로 계획을 세우는 문제.
  2. 생성된 계획의 타당성 문제: LLM이 복잡한 제약 조건을 만족하는 계획을 생성하는 것이 어려움.
  3. 효율성 문제: 계획의 최적화를 고려하지 않고 탐욕적(greedy)으로 수행되는 경향이 있음.
  4. 다중 모달 환경에서의 계획 문제: 텍스트 외의 이미지, 음성 등의 피드백을 처리하는 능력이 부족.
  5. 정밀한 평가 지표 부족: 기존 벤치마크가 단순 성공률 위주로 설계되어 있음.

향후 연구 방향

  • 기호적 AI와 LLM을 결합하여 계획의 논리적 일관성을 높이는 연구.
  • 효율적인 계획 생성을 위한 추가적인 평가 모듈 도입.
  • 다중 모달 환경에서의 LLM 계획 수행 능력 향상.

이 논문은 LLM을 활용한 자율 에이전트 계획 연구의 현황을 체계적으로 정리하고, 향후 연구 방향을 제시하는 데 중요한 자료가 될 수 있다.

 

 

논문에서는 LLM 기반 에이전트의 계획 능력을 평가하기 위해 다양한 벤치마크 환경을 사용하며, 이를 크게 세 가지 유형으로 분류한다.


1. 평가 방식의 주요 카테고리

LLM 기반 에이전트의 계획 성능을 평가하는 방법은 크게 (1) 상호작용 게임 환경(Interactive Gaming Environments), (2) 상호작용 검색 환경(Interactive Retrieval Environments), (3) 상호작용 프로그래밍 환경(Interactive Programming Environments) 으로 구분된다.

평가 환경 유형 주요 평가 기준 대표적인 벤치마크
1. 상호작용 게임 환경 - 성공률 (Success Rate, SR)
- 보상 점수 (Average Reward, AR)
- 수행 비용 (Expenses, EX)
- Minecraft
- ALFWorld
- ScienceWorld
2. 상호작용 검색 환경 - 검색 성공률 (Search Success Rate)
- 정보 획득 정확도
- HotPotQA
- FEVER
- WebShop, Mind2Web, WebArena
3. 상호작용 프로그래밍 환경 - 코드 실행 성공률 - 문제 해결률 - AgentBench
- MiniWoB++

2. 평가 환경별 세부 설명

(1) 상호작용 게임 환경 (Interactive Gaming Environments)

이 환경에서는 에이전트가 게임 환경 내에서 계획을 수행하고 그 결과를 평가한다.

  1. Minecraft
    • 플레이어가 도구를 만들고 자원을 수집하는 환경.
    • 평가 지표: 제작된 도구 수, 작업 성공률
  2. ALFWorld
    • 자연어로 표현된 환경에서 에이전트가 주어진 목표를 달성해야 하는 텍스트 기반 환경.
    • 평가 지표:
      • 성공률 (SR): 주어진 목표를 달성한 비율.
      • 보상 점수 (AR): 목표 달성 과정에서 얻은 총 보상.
  3. ScienceWorld
    • 과학 실험 수행을 위한 환경.
    • 평가 지표:
      • 성공률 (SR): 실험이 정확하게 수행된 비율.
      • 보상 점수 (AR): 과업 수행의 질을 측정하는 점수.

상호작용 게임 환경의 한계점

  • 텍스트 기반 환경이므로, 실제 물리적 환경을 완전히 반영하기 어려움.
  • 실시간 상호작용에 대한 평가 부족 (예: 실행 속도, 계산 비용 등 고려되지 않음).

(2) 상호작용 검색 환경 (Interactive Retrieval Environments)

이 환경에서는 LLM 에이전트가 정보 검색을 통해 올바른 답을 도출할 수 있는지 평가한다.

  1. HotPotQA
    • 다중 문서 기반 질의응답 (Multi-Hop Question Answering) 벤치마크.
    • LLM이 여러 개의 문서를 탐색하며 답을 찾도록 설계됨.
    • 평가 지표:
      • 정답률: 정확한 정보를 찾는 비율.
      • 비용(EX): 검색 과정에서 소비한 토큰 수.
  2. FEVER
    • 사실 검증 (Fact Verification) 벤치마크.
    • LLM이 웹에서 검색한 정보를 바탕으로 주어진 주장(statement)이 참인지 거짓인지 판별.
    • 평가 지표:
      • 정확도 (Accuracy): 올바르게 사실을 검증한 비율.
      • 검색 성능: 검색 키워드 활용 능력.
  3. WebShop, Mind2Web, WebArena
    • 웹 탐색 기반 평가 벤치마크.
    • 에이전트가 웹을 탐색하며 주어진 목표를 수행할 수 있는지를 평가.
    • 평가 지표:
      • 정확도 (Accuracy): 올바른 정보를 찾아내는 비율.
      • 탐색 효율성: 최소한의 검색으로 정답을 도출하는 능력.

상호작용 검색 환경의 한계점

  • LLM이 웹에서 검색한 정보를 정확하게 이해하고 해석할 수 있는지 불분명.
  • 잘못된 정보를 검색했을 경우 이를 수정하는 기능이 부족할 수 있음.

(3) 상호작용 프로그래밍 환경 (Interactive Programming Environments)

이 환경에서는 LLM 에이전트가 주어진 프로그래밍 문제를 해결할 수 있는지 평가한다.

  1. AgentBench
    • 프로그래밍 문제 해결을 위해 설계된 평가 벤치마크.
    • LLM이 코드를 작성하고 실행하며 주어진 문제를 해결할 수 있는지 측정.
    • 평가 지표:
      • 코드 실행 성공률: 실행 결과가 올바른지 여부.
      • 디버깅 능력: LLM이 자체적으로 오류를 수정하는 능력.
  2. MiniWoB++
    • 웹 기반 GUI 자동화를 위한 환경.
    • LLM이 버튼 클릭, 텍스트 입력 등의 작업을 수행하는 능력을 평가.
    • 평가 지표:
      • 성공률 (SR): 주어진 작업을 정확히 수행한 비율.
      • 탐색 속도: 얼마나 빠르게 목표를 달성하는지.

상호작용 프로그래밍 환경의 한계점

  • 실제 프로그래머가 수행하는 복잡한 문제를 다루기에는 아직 부족.
  • 디버깅 과정에서 LLM이 이전 오류를 제대로 학습하지 못하는 경우가 있음.

3. 실험 결과 요약

논문에서는 위 평가 환경 중 네 가지 벤치마크에서 LLM 에이전트의 성능을 비교하였다.

   

방법론  ALFWorld (SR) ScienceWorld (AR) HotPotQA (SR) FEVER (SR) 비용(EX)
ZeroShot-CoT N/A N/A 1% 39% 0.95
FewShot-CoT 43% 16.58 32% 61% 98.60
CoT-SC (Self-Consistency) 57% 15.24 33% 62% 105.37
SayCan 60% 12.36 N/A N/A 113.61
ReAct 57% 15.05 34% 63% 152.18
Reflexion 71% 19.39 39% 68% 220.17

실험 결과 분석

  1. 성능이 높을수록 비용(EX, 토큰 사용량)이 증가하는 경향이 있음.
  2. Few-shot 방법이 Zero-shot 방법보다 훨씬 높은 성능을 보임.
  3. Reflexion(반성 기반 방법)이 복잡한 문제에서 가장 높은 성공률을 기록함.
  4. ReAct가 다중 검색 및 질의응답에서 안정적인 성능을 보임.
  5. CoT-SC(Self-Consistency)가 여러 경로를 탐색하는 문제에서 강력한 성능을 보임.

4. 결론 및 향후 연구 방향

LLM 기반 에이전트의 평가 방법론은 아직 정확성과 신뢰성을 보장하기 어려운 문제들이 존재한다. 향후 연구 방향은 다음과 같다.

  1. 세밀한 평가 기준 추가:
    • 현재의 벤치마크는 단순 성공률에 의존 → 계획 효율성, 학습 능력, 디버깅 능력 등 추가 지표 필요.
  2. 현실적이고 복잡한 환경 구축:
    • 단순 규칙 기반 환경을 넘어, 진짜 물리적 환경에서의 평가 필요.
  3. LLM의 장기적 학습 및 기억력 평가:
    • 현재의 평가 방법은 단기적인 성능만 측정장기적인 메모리 기반 평가 방법 개발 필요.

이러한 개선점을 반영하면, LLM 기반 에이전트의 계획 능력을 보다 정확하게 평가하고 최적화할 수 있을 것으로 기대된다.

728x90