인공지능/자연어 처리

DEPS와 GITM 비교

이게될까 2024. 11. 27. 20:54
728x90
728x90

DEPS

2024.11.27 - [인공지능/논문 리뷰 or 진행] - Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents - 논문 리뷰

 

Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents - 논

https://arxiv.org/abs/2302.01560 Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task AgentsWe investigate the challenge of task planning for multi-task embodied agents in open-world environment

yoonschallenge.tistory.com

 

GITM

2024.11.26 - [인공지능/논문 리뷰 or 진행] - Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory - 논문 리뷰

 

Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge

https://arxiv.org/abs/2305.17144 Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based KnowledgeThe captivating realm of Minecraft has attracted substantial research interest in recent years

yoonschallenge.tistory.com

 

DEPS는 단순하게 현재 상황을 파악하고 동적으로 계획을 변경합니다.

그러나 GITM은 메모리라는 개념을 도입하여 기존에 어떻게 해서 성공했는지, 어떻게하여 실패했는지가 기록으로 남아 있기 때문에 통찰이 쌓일 수록 좀 더 높은 성능을 가지고 있습니다.

이런 특성 때문에 GITM이 장기적으로 활용될 확률이 높겠네요

 

비교 분석: DEPSGhost in the Minecraft (GITM)


1. 연구 목적

DEPS:

  • 목표: 오픈 월드 환경에서 대규모 언어 모델(LLM)을 활용하여, 동적 플래닝을 통해 다양한 태스크를 수행하는 다목적 에이전트를 개발.
  • 핵심 기여:
    • 실행 도중 실패를 분석하고 플래닝을 실시간으로 수정하는 피드백 루프(Describe, Explain, Plan, Select)를 설계.
    • Minecraft와 같은 환경에서 제로샷 방식으로 높은 성공률 달성.

GITM:

  • 목표: Minecraft의 전체 기술 트리를 정복하는 등 복잡한 장기적 목표를 수행하는 범용 능력 에이전트(Generally Capable Agents)를 개발.
  • 핵심 기여:
    • LLM의 텍스트 기반 지식과 메모리를 활용해, 목표를 세부 목표로 분해하고 효율적으로 수행.
    • RL의 샘플 비효율성과 낮은 확장성을 극복하여 높은 학습 효율성광범위한 태스크 적응력을 구현.

2. 구조 및 메커니즘

기능 DEPS GITM

기능 DEPS GITM
플래닝 Describe-Explain-Plan-Select 루프를 통해 실행 중 실패를 반영하며 계획을 동적으로 수정. LLM Decomposer와 Planner를 사용해 목표를 계층적으로 분해하여 세부 목표를 생성.
지식 활용 실행 중 피드백을 받아 실패 원인을 설명(Self-Explanation)하고 새로운 계획 생성. Minecraft Wiki와 같은 외부 지식 기반을 활용해 목표 분해 및 플래닝 수행.
메모리 실패 및 성공 경험을 즉시 반영하며 계획을 수정, 하지만 명시적 메모리 시스템은 없음. 텍스트 기반 메모리를 사용해 과거 경험을 저장하고, 반복 태스크에서 이전 계획을 활용해 효율성을 향상.
태스크 수행 방식 프롬프트를 통해 LLM이 태스크를 분해하고, 저수준 컨트롤러가 실행. LLM Planner가 구조화된 액션(Structured Actions)을 생성, LLM Interface로 실행.
환경 피드백 피드백 루프를 통해 현재 상태를 반영하고, 실패 시 새로운 계획 생성. 구조화된 피드백 메시지를 통해 실패 원인과 상태를 파악하여, 계획을 수정하고 메모리에 반영.

3. 성과 비교

(1) Minecraft 내 성능

평가 항목 DEPS GITM
ObtainDiamond 성공률 0.59% 67.5%
기술 트리 달성률 (262 항목 중) 약 30% 100%
성공률 변동성 높은 변동성 (특정 태스크에서 성능 저하) 일정한 성능 유지 (복잡한 태스크에서도 성공적)

(2) 학습 효율성

  • DEPS:
    • 추가 학습 없이 제로샷 성능을 보임.
    • 강화학습 기반 모델에 비해 효율적이지만, GITM의 메모리 기반 학습보다는 부족.
  • GITM:
    • RL 모델 대비 10,000배 이상의 효율성을 보임.
    • 메모리를 활용해 반복 태스크에서 더욱 효율적으로 계획 생성 가능.

4. 차이점

(1) 피드백 활용 방식

  • DEPS:
    • 피드백을 실시간으로 분석하여 실패 원인을 설명하고 계획을 수정.
    • 동적이고 상황 의존적인 플래닝이 가능.
  • GITM:
    • 구조화된 피드백 메시지를 활용해 환경 상태를 업데이트하고, 텍스트 기반 메모리에 반영.
    • 실패 원인을 분석하고 계획에 반영하는 체계적인 메커니즘.

(2) 메모리 시스템

  • DEPS:
    • 명시적인 메모리 시스템 없이 즉각적인 피드백과 설명에 의존.
  • GITM:
    • 텍스트 기반 메모리를 활용해 과거 계획과 실행 데이터를 저장 및 재활용.
    • 반복적인 목표 수행 시 효율성을 극대화.

(3) 태스크 복잡성

  • DEPS:
    • 비교적 간단한 목표(ObtainDiamond 등)에 초점.
    • 장기적이고 복잡한 목표에서는 변동성이 크며 성능 저하 발생.
  • GITM:
    • 기술 트리 전체를 포함하는 장기적 목표 수행 가능.
    • 복잡한 태스크에서도 일정한 성공률을 보임.

5. 결론 및 평가

DEPS의 강점:

  • 실시간 피드백 루프를 통해 유연한 플래닝과 실행 가능.
  • 추가 학습 없이도 다양한 환경에서 제로샷 성능을 발휘.

GITM의 강점:

  • 텍스트 기반 지식과 메모리를 활용하여 장기적이고 복잡한 태스크 수행.
  • 효율적이고 범용적인 에이전트로 확장 가능.

종합적 판단:

  • DEPS는 동적 플래닝에 강점을 가지고 있지만, GITM처럼 복잡한 장기 목표에서는 성능 제약이 있습니다.
  • GITM은 텍스트 기반 메모리와 지식 활용을 통해, Minecraft와 같은 환경에서 더 넓은 범위의 태스크를 효과적으로 처리합니다.
  • 연구 방향으로는 DEPS의 피드백 루프GITM의 메모리 기반 학습을 결합하여, 더욱 강력한 오픈 월드 에이전트를 설계할 수 있을 것입니다.

 

그럼 DEPS는 단순히 지금 환경을 통해 수정을 하여 동적으로 계획을 변경하고, GITM은 여태까지 경험이 메모리에 있기 때문에 지금 환경과 메모리에 있는 경험, 통찰을 바탕으로 계획을 동적으로 수정하는 것이네?
메모리라는 것 때문에 GITM이 더 넓은, 더 긴 목표에 좀 더 강력한 성능을 보이는 것이고?

네, 정확합니다! DEPSGITM의 차이는 본질적으로 환경에 대한 동적 계획 수정 방식메모리의 유무에서 비롯됩니다. 이 차이가 두 접근법의 강점과 약점을 나누며, 특히 장기적이고 복잡한 태스크에서 GITM의 성능을 더욱 강력하게 만드는 이유가 됩니다.


1. DEPS: 현재 환경 중심의 동적 계획 수정

  • 작동 방식:
    • DEPS는 현재 환경에서 관찰한 상태와 실행 결과를 바탕으로 계획을 수정합니다.
    • 실패 시에는 Describe, Explain, Plan, Select (DEPS) 루프를 통해 즉각적으로 계획을 조정합니다.
      • 예: 나무가 없으면, 숲으로 이동하는 플랜을 새로 생성.
  • 특징:
    • 과거 경험(메모리)을 저장하거나 재활용하지 않습니다.
    • 모든 계획 수정은 현재 상태실행 피드백만을 기반으로 이루어집니다.
  • 장점:
    • 현재 상황에 매우 적응적이며, 환경의 변화에 빠르게 대처할 수 있습니다.
    • 사전 학습된 LLM만을 사용하므로 별도의 학습 없이도 제로샷으로 다양한 태스크 수행 가능.
  • 제약:
    • 장기적 목표복잡한 태스크에서는 성능이 제한적입니다.
      • 과거 경험을 저장하지 않기 때문에 이전의 시도에서 얻은 통찰(insight)을 활용하지 못합니다.
      • 목표를 반복적으로 수행해야 할 때도 매번 새롭게 계획을 세워야 합니다.

2. GITM: 메모리를 통한 경험 기반 계획 수정

  • 작동 방식:
    • GITM은 현재 환경 정보와 함께 텍스트 기반 메모리를 활용하여 계획을 수정합니다.
    • 메모리는 과거 실행 경험, 실패 원인, 성공적인 플랜 등을 저장하며, 새로운 계획을 세울 때 참고됩니다.
      • 예: 과거에 "다이아몬드 채굴을 위해 곡괭이를 먼저 제작"했던 경험이 있다면, 이를 기반으로 효율적인 계획 생성 가능.
  • 특징:
    • 메모리 시스템을 통해 이전 경험을 저장하고, 유사한 목표를 반복 수행할 때 효율성을 극대화합니다.
    • 메모리와 현재 상태를 결합하여 더 깊이 있는 통찰(insight)을 바탕으로 계획을 수정합니다.
  • 장점:
    • 과거 경험을 활용하여 복잡한 태스크장기적 목표를 더 효과적으로 달성합니다.
      • 예: Minecraft의 기술 트리 전체를 정복하거나, 262개의 세부 태스크를 모두 성공적으로 수행.
    • 반복적인 태스크 수행 시 성능이 점점 향상됩니다.
  • 제약:
    • 메모리를 유지하고 관리하는 데 추가적인 자원이 필요합니다.
    • 메모리 시스템이 없으면 GITM의 성능은 크게 저하될 가능성이 있습니다.

3. GITM이 장기적 목표에서 강력한 이유

(1) 메모리의 존재

  • GITM은 이전 실행 경험을 축적하고, 이를 새로운 상황에서 재활용합니다.
  • 따라서 긴 목표를 달성하기 위해 필요한 중간 목표 간의 의존성이나 최적의 경로를 기억하고, 중복된 작업을 피할 수 있습니다.

(2) 메모리와 현재 환경의 통합

  • 현재 상태와 메모리 정보를 결합해, 단순히 현재 상황에만 반응하는 DEPS보다 더 전략적인 계획을 생성합니다.

(3) 경험 기반 효율성

  • 반복적인 태스크에서 점점 더 효율적으로 목표를 달성하며, RL 모델과 비교할 때도 샘플 효율성이 뛰어남.

4. DEPS vs. GITM 비교 요약

특징 DEPS GITM

특징 DEPS GITM
계획 수정 기준 현재 환경과 실행 피드백을 기반으로 계획 수정. 현재 환경 + 메모리 기반으로 계획 수정.
메모리 없음. 텍스트 기반 메모리로 과거 경험 저장 및 재활용.
장기 목표 수행 능력 낮음. 주로 단기적이고 간단한 목표에 적합. 높음. 복잡하고 긴 목표에서도 일관된 성능 유지.
유연성 환경 변화에 대한 빠른 적응. 메모리와 환경 정보를 통합해 전략적 적응 가능.
성능 강화 경험 반복 시 매번 새롭게 계획 필요. 반복 시 과거 경험 활용으로 성능 점진적 향상.

5. 결론

  • DEPS:
    • 현재 환경 중심으로 동적 플래닝을 수행하며, 유연성과 즉각적인 적응에 강점.
    • 그러나 과거 경험을 저장하지 않으므로, 복잡하고 긴 목표를 수행할 때는 성능이 제한적.
  • GITM:
    • 현재 환경 + 과거 경험(메모리)를 결합해 더 깊은 통찰과 전략적 플래닝을 수행.
    • 장기적 목표복잡한 태스크에서도 강력한 성능을 발휘하며, 반복되는 태스크에서 효율적.

결론적으로, GITM의 메모리 기반 접근법이 DEPS보다 더 넓은 범위더 긴 목표에서 성능을 발휘하는 이유는, 메모리를 통해 축적된 경험과 통찰을 플래닝 과정에 반영할 수 있기 때문입니다.

 

정리한 내용은 두 논문의 핵심 차이점을 잘 짚고 있으며, 간결하고 직관적으로 설명하고 있습니다. 하지만 좀 더 체계적이고 논리적으로 보완한다면 논문의 기여도를 명확히 전달하고, 연구 방향에 대해 더 깊이 있는 통찰을 제공할 수 있을 것입니다. 아래는 수정 및 보완된 내용을 포함한 개선된 정리입니다.


수정 및 보완된 정리

1. DEPS와 GITM의 본질적인 차이

  • DEPS:
    • 현재 상황을 기반으로 동적으로 계획을 변경합니다.
    • 환경에서 관찰한 정보와 실행 결과(피드백)를 즉각적으로 반영하여 실패를 수정하고 새로운 계획을 생성합니다.
    • 과거 경험을 저장하거나 활용하지 않으므로, 현재 상황 중심의 유연한 플래닝에 초점이 맞춰져 있습니다.
  • GITM:
    • 메모리라는 개념을 도입하여 과거의 성공과 실패를 기록합니다.
    • 이러한 기록은 향후 유사한 목표를 수행할 때 활용되며, 반복적인 태스크에서 경험 기반 통찰(insight)을 제공해 점진적으로 성능을 향상시킵니다.
    • 현재 환경 정보와 메모리를 통합하여 더 전략적이고 장기적인 플래닝을 구현합니다.

2. 성능 차이의 핵심 이유

  • DEPS:
    • 현재 환경 변화에 매우 빠르게 적응하며 동적 플래닝에 강점.
    • 그러나 과거의 경험을 저장하거나 재활용하지 않으므로, 복잡한 태스크장기 목표에서는 성능이 제한적입니다.
  • GITM:
    • 메모리를 활용해 과거 실행 경험을 기반으로 통찰을 축적합니다.
    • 반복 태스크나 복잡한 기술 트리 같은 장기 목표 수행에서 점진적인 성능 향상을 보입니다.
    • 따라서 GITM은 더 넓은 범위더 긴 목표를 처리하는 데 적합합니다.

3. 활용 가능성

  • DEPS는 단기적이고 빠르게 변화하는 상황에서 빠른 적응이 필요한 태스크에 적합합니다.
    • 예: 단순한 목표를 빠르게 처리하거나, 환경 변화에 즉각 대응해야 하는 상황.
  • GITM은 메모리를 기반으로 장기적으로 경험을 축적하고 활용할 수 있으므로, 복잡하고 장기적인 태스크에서 활용 가능성이 높습니다.
    • 예: 기술 트리의 완전한 정복, 반복적으로 발생하는 대규모 태스크 관리.

4. 최종 결론

  • DEPS는 현재 상황 중심의 유연성에 강점을 가지며, 간단한 태스크와 빠른 환경 변화에 적합합니다.
  • 반면, GITM은 메모리와 현재 환경을 통합하여 과거 경험을 축적하며, 장기적이고 복잡한 태스크에서 더 높은 성능을 발휘합니다.
  • GITM이 장기적으로 활용될 가능성이 더 높을 것으로 보이며, 이는 메모리 기반의 경험 축적과 활용이라는 특성 덕분입니다.

수정 후 강조된 포인트

  • DEPSGITM의 차이를 간결하면서도 깊이 있게 설명.
  • 두 접근법의 강점과 약점을 태스크의 특성과 연관 지어 분석.
  • 활용 가능성에 대한 평가를 추가하여, GITM의 장기적 우위를 명확히 전달.

이 수정된 내용은 두 논문의 핵심 기여와 차별점을 더 체계적으로 정리하며, 독자에게 각 접근법의 장점과 한계를 명확히 전달할 수 있을 것입니다.

728x90

'인공지능 > 자연어 처리' 카테고리의 다른 글

MoE란? - Mixture of Experts  (2) 2024.10.29
Hugging face Chat-ui, Vllm으로 챗봇 만들기  (3) 2024.10.28
ESC task 발표 준비  (0) 2024.10.08
SAE tutorial - logits lens with features  (5) 2024.09.23
SAE tutorials - SAE basic  (2) 2024.09.22