Agent, Hallucination 관련, Planning 논문 모아 보기 NAACL 2025

인공지능/논문 리뷰 or 진행

Agent, Hallucination 관련, Planning 논문 모아 보기 NAACL 2025 - 1

이게될까 2025. 5. 1. 19:49

728x90

https://2025.naacl.org/program/accepted_papers/#main-conference---long-papers

Accepted Papers

NAACL 2025 Accepted Papers

2025.naacl.org

진행되는 연구에서 논문을 찾아봐야 해서...

https://arxiv.org/abs/2406.04784

SelfGoal: Your Language Agents Already Know How to Achieve High-level Goals

Language agents powered by large language models (LLMs) are increasingly valuable as decision-making tools in domains such as gaming and programming. However, these agents often face challenges in achieving high-level goals without detailed instructions an

arxiv.org

왼쪽은 Agent 내부적으로 목표를 해결하는 Agent의 과정입니다.

Tree가 어떻게 해결되는진 외부적으론 모르겠지만 내부적으로 Search 및 Decompose 진행하여 Main Goal을 해결해 나갑니다.

이 논문은 목표를 동적으로 decompose하고, 적절한 subgoal로 분해 및 진행을 합니다.

그렇게 검색은 llm을 통해서 최적의 subgoal을 고르고, Main goal을 해결합니다.

1. 초기 고수준 목표 g₀를 설정
2. g₀를 초기 상태에서 한 번 분해하여 GOALTREE 생성
3. 각 라운드에서:
   a. 현재 상태에 가장 적절한 하위 목표 선택 (Search)
   b. 선택된 하위 목표가 추상적이면 추가 분해 (Decompose)
   c. 선택된 하위 목표에 따라 행동 결정 (Act)
   d. 트리에 새로운 노드 추가 (중복 제거 필터링 포함)
   e. 일정 라운드 이상 새 노드가 없으면 종료

SELFGoal의 성능이 제일 높은 것을 볼 수 있다.

기존 다른 Decompose를 진행하여 문제를 해결하는 알고리즘은 이익의 격차를 최소화하지 못하는 것을 볼 수 있다.

🎯 연구 목표	훈련 없이도 LLM 기반 언어 에이전트가 고수준 목표를 실시간으로 분해하고 환경에 맞춰 계획을 조정하여 문제를 해결하도록 유도
🔍 핵심 문제	- 고수준 목표는 모호하고 보상이 지연됨 - 기존 방법은 고정된 목표 분해 또는 단편적인 피드백 요약에 의존 - 실시간 적응과 세밀한 계획 생성이 어려움
🧠 제안 방법 (SELFGOAL)	- GOALTREE: 고수준 목표를 트리 구조의 하위 목표들로 실시간 분해 - Search Module: 현재 상태에 맞는 하위 목표를 선택 - Decompose Module: 선택된 하위 목표가 추상적일 경우 더 세분화 - Act Module: 선택된 하위 목표 기반으로 LLM 행동 결정
🧱 전체 구조	고수준 목표 (g₀) → GOALTREE 생성/갱신 → 하위 목표 탐색 → 행동 실행 → 환경 변화 반영 → 트리 업데이트 (반복)
💡 차별점	- 기존 대비 동적 트리 기반 의사결정 구조 - 경험 기반 학습과 사전 목표 분해를 통합한 구조 - 명시적 구조로 LLM reasoning 한계 보완
🧪 실험 환경	- Public Goods Game (경쟁) - Guess 2/3 of Average (협력) - First-price Auction (경쟁) - Bargaining (협상, 협력) → 모두 고수준 목표와 delayed reward 특징 가짐
📊 주요 결과 요약	- 모든 task에서 ReAct, Reflexion, ADAPT, CLIN 대비 우수 - GPT-3.5, Mistral-7B 등 소형 모델에서도 효과적 - GOALTREE가 깊어질수록 전략적 유연성 증가하지만 과도한 분기는 성능 저하 초래
🧠 행동적 인사이트	- Public Goods에서 Nash equilibrium 수렴 - Guess 2/3에서 더 빠르게 0 근접 - 협상에서 상대 가치 파악 후 이익 격차 최소화 전략 도출
⚠ 한계점	- LLM의 요약/추론 능력에 여전히 의존 - 트리 깊이 제어(ξ) 최적화 필요 - 구조화되지 않은 도메인(오픈월드 등) 확장 미검증 - Multi-agent 전략 공유 미지원
📚 관련 연구 대비 차별성	- ReAct: 정적 추론만 수행 - Reflexion: 실패 이후에만 반응 - ADAPT: task 실패 시에만 재계획 - CLIN: 구조화되지 않은 요약 중심 → SELFGOAL은 실시간 트리 기반 유연한 계획과 실행을 통합
🔬 연구적 의의	- LLM을 planning-capable agent로 진화시키는 구조적 접근 - 학습 없이도 상태 기반 reasoning & 행동 조정 가능 - AGI-style goal-driven 에이전트 설계 기반 제공
🌱 향후 연구 방향	- Multi-agent GOALTREE 공유 - Risk-aware subgoal selection - Tree compression & pruning 기법 - 자동 메타-GOALTREE 초기화

논문은 LLM 기반 언어 에이전트가 훈련 없이도 고수준 목표(high-level goal)를 효과적으로 달성할 수 있도록 하는 새로운 방법론을 제안합니다.

🔍 연구 목적 및 문제 정의

❓ 해결하려는 문제

LLM 기반 언어 에이전트는 “게임에서 승리하라”, “최대한 이익을 내라” 등 고수준 목표를 수행할 때, 다음과 같은 어려움이 있음:
1. 목표가 추상적이고 보상 지연이 발생함.
2. 환경과의 상호작용 중 동적으로 적응하지 못함.
3. 새로운 목표마다 훈련을 반복하는 것은 비효율적임.

기존 방법의 한계

접근법	방식	한계점
🧩 Task Decomposition	사전 지식 기반으로 목표를 미리 쪼갬	환경 정보 반영이 부족 (비동적)
🧠 Experience Summarization	상호작용 후 피드백을 요약	지침이 너무 단순하고 구조화되지 않음

🧠 SELFGOAL: 제안하는 방법

🌲 핵심 아이디어: GOALTREE

SELFGOAL은 에이전트가 환경과 상호작용하면서 동적으로 목표를 분해하는 GOALTREE를 구성함.
GOALTREE는 고수준 목표를 점차 구체적인 하위 목표로 분해한 트리 형태의 지침 구조임.

🧱 구성 모듈 (Chain-of-Thought 스타일)

Decomposition Module
- 현재 상태에 맞는 목표 노드를 더 세분화된 하위 목표들로 분해
- 기존 트리와 중복되지 않도록 코사인 유사도 필터링 적용
Search Module
- 현재 상태에 가장 적합한 K개의 하위 목표 노드 선택
- LLM 기반 프롬프트로 구현되며, 탐색 품질이 우수함
Act Module
- 선택된 하위 목표를 기반으로 LLM에게 행동을 유도

🔬 실험 설정

🎯 실험 환경

총 4가지 고수준 목표 과제를 다룸:

Task	타입	목표	특징
Public Goods Game	경쟁	총 토큰 최대화	보상이 지연되고 사회적 협력이 중요
Guess 2/3 Average	협력	2/3 평균에 가까운 수 선택	추론, Theory-of-Mind 평가 가능
First-price Auction	경쟁	이익 최대화	복수 라운드, 자원 배분 전략 요구
Bargaining	협력	이익 차이 최소화	상호작용적 협상, 심리적 대응 중요

🧪 비교 대상 프레임워크

ReAct: Reason-then-act (사전 추론 기반)
ADAPT: 환경에 따라 재계획
Reflexion: 실패 후 성찰 및 재시도
CLIN: 과거 경험 기반 원인-결과 학습

📊 주요 실험 결과

✅ 전체 성능 요약

SELFGOAL은 모든 task에서 모든 baseline보다 우수한 성능을 보임.
특히 GPT-4, Mistral-7B, Qwen-72B 등에서 SELFGOAL의 개선폭이 두드러짐.

🎯 Auction 예시 (TrueSkill 기준)

방법	GPT-3.5	GPT-4
ReAct	23.96	22.62
ADAPT	20.46	24.85
Reflexion	25.72	21.79
CLIN	22.95	27.16
SELFGOAL	29.59	28.98

🤖 작은 모델에서도 효과적

Mistral-7B, Qwen-7B 같은 소형 모델에서도 SELFGOAL이 가장 뛰어남
원인은 GOALTREE 구조가 명시적이고 구조화된 지침을 제공하기 때문

🔎 추가 분석

🔩 제어 가능한 지침 세분화 (Granularity)

GOALTREE의 깊이를 조절하는 임계값 ξ를 통해 지침의 구체성을 제어
너무 얕으면 정보 부족, 너무 깊으면 중복 및 혼란 발생 → 적절한 ξ 필요

🔍 탐색 모듈 비교 (Ablation)

방식	Auction TrueSkill
랜덤 선택	낮음
임베딩 유사도 기반	불안정
LLM 기반 탐색	가장 우수

🧪 사례 분석 (Bargaining 예시)

CLIN: “상대방 선호를 고려하라” → 나의 이익 무시 가능
ADAPT: “공평 분배” → 상대 가치관 무시
SELFGOAL: "상대의 가치 명확히 하고, 절충안을 제시" → 협상 합리적 진행

📌 결론 및 기여

핵심 기여

훈련 없이도 고수준 목표를 달성할 수 있는 비매개적(self-adaptive) 방법 제안
환경과의 상호작용 중 지침 구조(GOALTREE)를 실시간으로 생성 및 업데이트
협력/경쟁/보상지연 시나리오 모두에서 현저한 성능 향상

한계

SELFGOAL은 소형 모델에도 적용 가능하지만, 모델의 이해 및 요약 능력에 여전히 의존

🧭 연구적 인사이트 요약 표

항목	설명
문제점	고수준 목표 추상성, 지연 보상, 반복훈련의 비효율성
제안 방법	GOALTREE 기반 동적 하위 목표 분해 및 선택
구성 요소	Decompose, Search, Act 모듈
장점	학습 없이도 다양한 상황 적응, 명시적 구조 제공
평가 환경	GAMA-Bench, AucArena, DealOrNotDeal 등
비교	ReAct, Reflexion, ADAPT, CLIN 등보다 우수
성능 개선 포인트	탐색 모듈의 정교함, 지침 세분화 조절, 구조적 트리 구성

이 논문은 LLM의 "능동적 계획 수립 능력"을 끌어내는 흥미로운 프레임워크로, instruction tuning 없이도 상호작용 기반 지능형 행동을 가능하게 합니다.

🧭 문제 정의

● 목표

환경과 상호작용하는 언어 에이전트가 훈련 없이, “최종 이익 최대화”, “협상에서 공정한 합의 도출”과 같은 고수준 목표(high-level goal)를 성취하도록 만드는 것.

● 핵심 개념: GOALTREE

SELFGOAL은 언어 에이전트가 상황에 따라 스스로 고수준 목표를 트리 구조로 분해하고, 그 중 가장 유용한 노드를 선택하여 행동을 결정하는 구조입니다.
이 트리는 상호작용 도중에 동적으로 생성 및 수정되며, 에이전트의 의사결정을 지속적으로 보완합니다.

🧠 SELFGOAL 작동 방식 (알고리즘 기반 설명)

SELFGOAL의 작동 과정은 다음과 같습니다:

🔁 전체 워크플로우 요약 (Algorithm 1 기준)

1. 초기 고수준 목표 g₀를 설정
2. g₀를 초기 상태에서 한 번 분해하여 GOALTREE 생성
3. 각 라운드에서:
   a. 현재 상태에 가장 적절한 하위 목표 선택 (Search)
   b. 선택된 하위 목표가 추상적이면 추가 분해 (Decompose)
   c. 선택된 하위 목표에 따라 행동 결정 (Act)
   d. 트리에 새로운 노드 추가 (중복 제거 필터링 포함)
   e. 일정 라운드 이상 새 노드가 없으면 종료

🧩 SELFGOAL의 세 가지 핵심 모듈 설명

1️⃣ Search Module: 현재 상황에 적절한 하위 목표 선택

● 역할

현재 시점에서 GOALTREE의 하위 노드들 중 가장 유용한 K개를 선택합니다.

● 방식

LLM에게 다음과 같은 방식으로 프롬프트를 줍니다:

현재 상황: Bob이 책과 공을 갖고 싶다고 말했다.
목표: 이익 격차를 줄이기
하위 목표들: [“상대의 선호도 파악”, “공정한 분배안 제시”, “대화 유지”]
질문: 지금 상황에서 가장 적절한 목표는 무엇인가?

● 예시

Task: 협상 (Bargaining)
상황: Bob이 책과 공을 갖고 싶다고 함
선택된 하위 목표: “Bob의 가치 기준 파악”, “서로의 선호도 교환”

2️⃣ Decomposition Module: 하위 목표를 더 세부적으로 분해

● 역할

선택된 하위 목표가 모호할 경우, 현재 상태를 반영하여 더 구체적인 하위 목표로 분해합니다.

● 방식

예: “Bob의 가치 기준 파악” → “Bob에게 각 아이템의 가치가 얼마인지 물어봐라”, “대화로 선호 순위를 확인하라”
유사한 목표는 코사인 유사도(semantic similarity)를 이용해 중복 제거

● 예시

하위 목표 “상대 이해” →

“Bob의 책에 대한 가치가 높은지 물어본다”

“아이템별 평가 점수를 요구한다”

3️⃣ Act Module: 행동 실행

● 역할

선택된 하위 목표를 프롬프트에 넣어 LLM에게 행동을 유도합니다.

● 예시

선택된 지침: “Bob에게 각 아이템의 가치를 물어본다”
행동: “Bob, 이 책, 모자, 공 각각의 가치가 당신에게 얼마나 되는지 알려줄 수 있나요?”

🌲 GOALTREE의 동적 성장 구조

SELFGOAL은 초기 고수준 목표만 주어졌을 뿐, 이후의 하위 목표는 모두 LLM과 환경 상호작용을 통해 생성됩니다.

예시 트리 성장 과정 (Bargaining)

root: 이익 격차 최소화
  └── 상대의 가치 기준 파악
         └── 각 아이템에 대한 선호 물어보기
         └── 상대의 점수표 요청
  └── 공정한 분배안 제시
         └── 양쪽 점수 차이를 최소화하는 배분 제안

🎛 정교한 설계 요소

✅ Granularity Control (세분화 제어)

하위 목표가 너무 적으면 행동이 무의미
너무 많으면 선택하기 어려움 (과적합/혼란)
→ 유사도 임계값 ξ로 트리 깊이 제어

✅ LLM 탐색 vs 임베딩 검색 vs 랜덤

LLM 기반 탐색(Search)이 항상 성능이 가장 뛰어남
랜덤 선택이나 임베딩 유사도 기반은 성능 불안정

🧠 인공지능 전문가로서의 평가

✔ 왜 효과적인가?

기존의 static decomposition이나 post-hoc reflection 방식은 환경을 반영하지 못하거나 상황 적응력이 부족합니다.
SELFGOAL은 "상태 기반 적응형 목표 분해 + 검색 + 실행"의 체계적 루프를 통해 명시적이면서도 유연한 의사결정 구조를 제공합니다.

✔ 이 접근이 의미 있는 이유

Parameter-free: LLM 파라미터를 바꾸지 않음
환경과의 실시간 상호작용에 기반한 계획 생성
AGI-style 구조: Reasoning, Planning, Acting loop 내재화

🧪 요약

구성 요소	설명	예시
Search	현재 상황에 맞는 하위 목표 선택	“Bob의 선호도 파악”
Decompose	추상 목표를 더 세분화	“각 아이템의 가치 물어보기”
Act	선택된 목표에 따라 행동	“Bob, 이 책의 가치는 얼마인가요?”
GOALTREE	전체 목표 구조 유지 및 성장	하위 목표의 동적 트리 구조

🧪 결과 요약 (Experiments & Results)

SELFGOAL의 효과는 4가지 고수준 목표 환경에서 실험을 통해 입증되었습니다.

🎯 주요 실험 환경

Task	유형	목표
Public Goods Game	경쟁	총 토큰 수 최대화
Guess 2/3 Average	협력	2/3 평균에 가장 가까운 수 선택
First-price Auction	경쟁	최종 이익 최대화
Bargaining	협력	협상 상대와 이익 격차 최소화

📊 정량적 성능 비교

SELFGOAL은 모든 태스크에서 기존 SOTA 방법들(ReAct, Reflexion, ADAPT, CLIN)보다 우수한 성능을 보였음.
특히 GPT-3.5 또는 Mistral-7B 같은 중소형 모델에서도 SELFGOAL이 의미 있는 성능 향상을 보임.
예: Auction 환경의 TrueSkill 점수에서 SELFGOAL이 GPT-3.5 기준 +6.64p 상승

✅ SELFGOAL 성능 예시 (GPT-3.5 기준)

Task	가장 높은 점수	SELFGOAL	점수 이득
Auction	25.72 (Reflexion)	29.59	+3.87
Bargaining	2.95 (ADAPT)	2.20 (낮을수록 좋음)	+0.75 감소

🔍 SELFGOAL의 강점

✅ 전략적 계획 품질 향상

고수준 목표를 상황에 맞게 세분화하고,
불필요하거나 중복된 목표는 필터링
결과적으로 상황 적응력과 전략적 일관성이 향상됨.

✅ 작은 모델에서도 효과적

일반적으로 작은 LLM은 복잡한 계획에 약하지만,
SELFGOAL은 트리 구조가 명확한 지침을 제공하므로 모델의 한계를 보완

✅ 행동의 합리성 증대

반복 게임 실험에서 SELFGOAL 에이전트가 더 합리적인 행동 패턴을 보임
- 예: Guess 2/3에서 더 빠르게 0에 수렴 (Nash equilibrium)

🧠 결론 및 기여 (Conclusion)

🎓 이 논문의 핵심 기여

기여 항목	설명
1. 훈련 없는 목표 달성	기존 LLM의 파라미터를 변경하지 않고도 고수준 목표를 수행 가능
2. 동적 GOALTREE	목표 트리를 실시간으로 구성, 수정, 활용하며 명시적 의사결정 트레이스를 제공
3. 광범위한 실험	협력/경쟁/보상지연 환경 모두에서 SOTA를 능가하는 성과 입증

⚠ 한계점 및 향후 과제

🔻 한계점 1: LLM의 언어 이해 및 요약 능력에 의존

SELFGOAL은 비학습 기반이지만, 트리를 구성하고 활용하는 품질은 결국 LLM의 추론 및 요약 능력에 의존
예: GPT-4로 구성한 GOALTREE가 GPT-3.5 대비 훨씬 더 나은 결과를 냄 → 강한 모델일수록 효과 증대

🔻 한계점 2: 트리 깊이에 따른 복잡도 증가

트리 구조가 깊어지면 검색(Search)이 어려워짐
너무 많은 노드 → 유사한 목표 중복 → 오히려 탐색 방해
논문에서는 임계값 ξ로 제어했지만, 여전히 자동적인 깊이 제어 최적화는 미해결

🔻 한계점 3: 도메인 일반화 미검증

실험은 게임/협상/경매와 같은 상대적으로 구조화된 도메인에 한정
실세계 복잡한 도메인(예: 소프트웨어 개발, 오픈월드 시뮬레이션)에서의 성능은 추가 검증 필요

🔻 한계점 4: 에이전트 간 상호작용 전략 부족

Multi-agent 상황에서 다른 에이전트의 전략을 탐색하거나 협업하는 기능은 명시적으로 학습되지 않음

🔚 마무리 요약

항목	내용
✅ 무엇을 했는가	SELFGOAL이라는 비학습 기반 GOALTREE 프레임워크로 LLM 에이전트가 동적으로 고수준 목표를 분해하고 행동하게 함
✅ 무엇을 보여줬는가	4개 과제에서 기존 모든 baseline을 초과하는 전반적인 성능 향상 입증
✅ 왜 중요한가	LLM 기반 에이전트의 planning 능력을 구조적으로 증강시켜, 훈련 없이 다양한 상황에 적응 가능하게 함
⚠ 무엇이 부족한가	LLM 성능 의존성, 트리 깊이 자동 제어, 다양한 도메인 일반화 등 해결해야 할 기술적 숙제가 존재

논문 SELFGOAL은 LLM 기반 언어 에이전트가 고수준 목표를 달성하기 위한 동적 계획 생성 및 실행 구조를 제안합니다. 이 논문은 여러 기존 연구의 연장선에 있지만, 몇 가지 중요한 차별점을 가지고 있습니다. 아래에서는 관련 연구들을 정리하고, SELFGOAL과의 차이점 및 기여점을 중심으로 비교해드리겠습니다.

🔍 관련된 주요 연구 분류 및 대표 논문

SELFGOAL과 밀접한 연구들은 크게 세 가지 범주로 나눌 수 있습니다:

범주	설명	대표 논문
1. 사전 분해 기반 계획 (Pre-Decomposition)	행동 전 목표를 사전 분해해 행동 지침 생성	ReAct, ADAPT, OKR-Agent, Decomposed Prompting
2. 경험 기반 학습 (Post-hoc Experience Learning)	실패나 성공 이후, 경험을 요약하여 학습	Reflexion, CLIN, Self-Refine, Expel
3. 계층적/모듈형 계획 (Hierarchical Planning)	LLM이 하위 계획을 재귀적으로 생성	Voyager, ADAPT, Delta, ScriptDistillation

📚 주요 관련 논문 정리 및 비교

1️⃣ ReAct (Yao et al., 2023)

방식: LLM에게 ‘Reason → Act’ 과정을 명시적으로 시킴
제한: 목표를 사전 분해한 뒤 실행만 하므로, 환경 적응성이 떨어짐
SELFGOAL과 차이점:
- ReAct는 정적 reasoning, SELFGOAL은 동적 GOALTREE 기반 reasoning
- SELFGOAL은 실행 도중 목표를 재구성함

2️⃣ ADAPT (Prasad et al., 2024)

방식: LLM이 task를 수행할 수 없을 때 재귀적으로 계획을 재설계
제한: 여전히 각 단계에서의 목표와 실행이 분리되며, 계층 구조 관리가 불분명
SELFGOAL과 차이점:
- ADAPT는 실패했을 때만 재계획, SELFGOAL은 계속해서 GOALTREE를 확장
- SELFGOAL은 트리 구조 내 노드 간 연결성과 유사도 기반 중복 제거가 핵심

3️⃣ Reflexion (Shinn et al., 2023)

방식: 실패 후 자기 반성을 통해 상위 계획을 수정
제한: 너무 광범위하거나 단순한 피드백이 많아, 실시간 활용이 어려움
SELFGOAL과 차이점:
- Reflexion은 실패 후 재시도, SELFGOAL은 성공/실패 여부 상관없이 실시간 트리 갱신
- Reflexion은 단일 피드백 요약, SELFGOAL은 구조화된 목표 트리 기반 명확한 지침

4️⃣ CLIN (Majumder et al., 2023)

방식: 과거 성공/실패를 "A should/may be necessary for B" 형태로 요약하여 future trial에 적용
제한: 원인-결과 연결은 하지만, 트리 형태나 즉각적인 응용에는 약함
SELFGOAL과 차이점:
- CLIN은 기억 기반 요약 학습, SELFGOAL은 현재 상태에 즉시 반영 가능한 계획 생성
- SELFGOAL은 CLIN보다 전략적 일관성 및 목표-행동 간 매핑이 더 명확

5️⃣ Voyager (Wang et al., 2023)

방식: Minecraft 환경에서 LLM이 실패 경험을 바탕으로 skill 라이브러리 확장
제한: 코드 기반 에이전트이며, 계획 자체는 명시적이지 않음
SELFGOAL과 차이점:
- Voyager는 기술(skill) 축적 중심, SELFGOAL은 의사결정 전략 중심
- Voyager는 task 구조를 재사용, SELFGOAL은 매번 새로운 GOALTREE 구성

6️⃣ OKR-Agent (Zheng et al., 2023)

방식: 목표-결과(Objective-KeyResult) 구조로 task 분해 + self-collaboration
차이점:
- OKR-Agent는 static OKR 세트, SELFGOAL은 dynamic GOALTREE
- OKR-Agent는 에이전트 간 역할 분할, SELFGOAL은 하나의 에이전트 내 트리 확장

7️⃣ Self-Refine (Madaan et al., 2023)

방식: LLM이 자기 출력을 반복 평가하고 수정 (self-feedback)
차이점:
- Self-Refine은 출력 품질 개선에 초점, SELFGOAL은 계획 수립과 목표 분해에 초점

🧠 비교 요약표

기준	SELFGOAL	ReAct	Reflexion	ADAPT	CLIN	Voyager
실시간 계획 갱신	✅	❌	❌	⭕(실패 시)	❌	❌
목표 트리 구조	✅	❌	❌	❌	❌	❌
환경 적응성	✅	❌	⭕	⭕	❌	⭕
과거 경험 활용	⭕	❌	✅	✅	✅	✅
구조화된 지침	✅	❌	❌	⭕	⭕	❌

🎓 총평: SELFGOAL의 위치

“SELFGOAL은 기존 planning/feedback 계열 방법론을 통합하면서도, 명시적이고 구조화된 목표 분해 트리를 통해, LLM이 고수준 목표에 도달하도록 돕는 최초의 동적 계획 수립 프레임워크 중 하나입니다.”

ReAct처럼 reasoning을 하되,
Reflexion처럼 경험을 반영하되,
ADAPT처럼 상황에 따라 재계획하며,
CLIN보다 더 구조적이고 실시간 대응 가능한 전략을 제공합니다.

🧭 향후 확장 가능 연구 제안

✅ 다중 에이전트 환경에서의 GOALTREE 공유/조정
✅ 추론 불확실성 기반 하위 목표 선택 (Uncertainty-aware Search)
✅ Long-Horizon Planning을 위한 Tree Pruning 알고리즘 최적화
✅ 과제 별 목표 트리 자동 초기화 (Meta-GOALTREE)

https://arxiv.org/abs/2408.13986

AgentMove: A Large Language Model based Agentic Framework for Zero-shot Next Location Prediction

Next location prediction plays a crucial role in various real-world applications. Recently, due to the limitation of existing deep learning methods, attempts have been made to apply large language models (LLMs) to zero-shot next location prediction task. H

arxiv.org

기존 딥러닝 방식으론 지속된 데이터 수집, 바뀌는 환경, 다양한 요소 등에 의해 예측하기 쉽지 않다.

그리 하여 다음 위치를 예측하기 위해 LLM을 활용하여 Agent를 만들었다.

특정한 사람의 다음 위치를 예측하기 위해선 task를 쉬운 3가지 sub task 로 decompose 합니다.

그 후 개인 이동 습관, 도시의 구조, 다른 사람들의 이동하는지 구합니다.

개인 이동습관은 메모리 모듈을 통해 진행하고, 도시의 구조는 WKG로 특정 지역에서 사람들이 많이 가는 곳을 후보 장소로 생성합니다. 사람들이 많이 이동하는 곳은 그래프 구조를 통해 가장 가능성 높은 장소를 선택합니다.

이러한 3가지 정보를 통해 어디를 갔을 지 예측합니다.

딥러닝 기반은 특정 지역의 데이터로 학습을 해야 하는 반면, LLM은 Pre-trained data를 통해 Inference한다.

시공간 기억 - LLM Agent의 메모리 모듈과 비슷한 것으로, write, read, update를 통해 유지된다.

사용자 프로필은 특정 위치를 언제, 왜 방문하는지에 대해 작성되어 있으며 장기 메모링를 기반으로 동적으로 생성된다.

장기 메모리 - 사용자의 이동 패턴을 저장하여 추세와 반복을 포착

단기 메모리 - 최근 이동한 패턴에 맞춰 단기적 변화를 반영 및 동적 업데이트

이러한 결과를 볼 수 있었습니다.

이건 제가 찾던 Agent 느낌은 아니어서 대충 보고 넘어가겠습니다.

🎯 문제의식	- 훈련 데이터 의존성, 일반화 불가 - 도시 구조/상황 이해 부족 - 개인화·탐색성 미흡
🧠 제안 방법	AgentMove: LLM 기반 에이전트 프레임워크 → 문제 분해 + 모듈 기반 추론
🧩 모듈 구성	1. Task Decomposition: 문제를 3개 관점으로 분리 2. STM (Memory): 개인 장단기 패턴 + 프로파일 추출 3. WKG (World Knowledge): 도시 구조 기반 탐색 후보 생성 4. CKE (Collective Knowledge): 유사 사용자 패턴 추출 (Graph) 5. Final Reasoning: 통합적 추론 및 예측
🧪 예시 시나리오	- 개인 A: 평일 9시 회사, 18시 헬스장, 주말 오전 카페 방문 → LLM은 최근 기록 + 도시 맥락 + 유사 사용자 데이터를 기반으로 다음 위치 예측
🧪 실험 데이터	- Foursquare: 12개 도시, sparse check-in - ISP Trajectory: 상하이, dense GPS logs (LLM 학습 이후 데이터)
⚖️ 비교 대상	- DeepMove, GETNext, STHGCN (딥러닝) - LLM-Mob, LLM-ZS, LLM-Move (LLM 기반)
📈 주요 성능	- 12개 지표 중 8개 1위 - Deep Learning 대비 최대 8.57%, LLM 대비 6.82% 향상 - 제로샷 환경에서 딥러닝보다 성능 우수
🔍 Ablation 결과	- STM, WKG, CKE 모두 성능 향상 기여 - WKG: 탐색 유도, Location Return Rate 감소 - 전체 조합 시 최대 45% 성능 향상
🌍 지리적 편향	- 기존 LLM은 도시별 편차 큼 (도쿄↑, 나이로비↓) - AgentMove는 편차 감소, 고른 성능 유지
🧠 LLM 크기 효과	- Llama3.1-405B 등 대형 모델일수록 성능 향상 - 소형 LLM (7B)에서도 AgentMove는 안정적 작동
✅ 결론	- LLM에 memory, knowledge, reasoning 구조를 붙여 도메인 예측에 적용한 최초의 통합형 시도 - Zero-shot 상황에서의 실용적 예측 가능성 입증
⚠️ 한계	- LLM API 호출 비용 ↑ - 지리적 편향 완전 제거 어려움 - Hallucination 위험 존재
📚 의의	- LLM을 실질적 도시 문제에 agent화한 사례 - Urban intelligence 분야에서 LLM agent paradigm 가능성을 제시

논문 "AgentMove: A Large Language Model based Agentic Framework for Zero-shot Next Location Prediction"은 인간의 다음 위치 예측이라는 과제를 LLM 기반 에이전트 아키텍처로 해결하는 새로운 접근법을 제안합니다.

📌 문제 정의: 무엇을 해결하려 했는가?

기존 딥러닝 기반의 위치 예측 방식은:

대량의 개인 위치 데이터 수집이 필요하고,
제로샷 일반화가 불가능하며,
소규모 모델의 한계로 도시 구조나 사람들의 일상적 이동 패턴을 이해하지 못함.

이러한 한계를 극복하기 위해, 저자들은 LLM이 가진 세계지식과 추론 능력을 활용하여 제로샷으로 일반화 가능하며, 지리적/사회적 구조를 이해하는 새로운 프레임워크인 AgentMove를 제안합니다.

🧠 방법론: 어떻게 접근했는가?

AgentMove는 LLM 기반의 에이전트 프레임워크를 구성하여 다섯 개의 주요 모듈을 도입합니다:

1. Task Decomposition Module (계획 모듈)

전체 이동 예측 문제를 3개의 하위 과제로 분해:
- 개인 이동 패턴 분석
- 도시 구조 모델링
- 집단적 이동 패턴 추출

2. Spatial-Temporal Memory Module (개인 기억 모듈)

개인의 장기/단기 이동 패턴 및 프로파일 저장 및 사용
구성 요소:
- Long-term memory: 자주 방문한 장소, 시간, 전이 행렬 등
- Short-term memory: 최근 방문 패턴
- User profile: 선호하는 장소/시간대 요약
역할: LLM 프롬프트 생성을 위한 맥락 요약을 제공

3. World Knowledge Generator (도시 지식 모듈)

텍스트 기반 주소 정보를 이용해 LLM의 세계 지식과 도시 구조를 정렬
4단계 multi-scale 구조 (district → block → street → POI)를 기반으로 탐색 후보 장소 생성
탐색 행동(exploration)을 잘 모델링하도록 설계됨

4. Collective Knowledge Extractor (집단 패턴 추출 모듈)

다수 사용자 데이터를 기반으로 위치 전이 그래프 생성
NetworkX를 툴로 활용, 유사한 사용자들의 패턴을 통해 예측 보조
LLM이 그래프에서 이웃 노드 탐색 → 잠재적 다음 위치 후보 도출

5. Final Reasoning Module

상기 모든 정보 (기억, 도시 지식, 집단 지식) 기반으로 최종 추론 프롬프트 구성
LLM으로부터 다음 위치와 예측 이유를 JSON 형태로 출력 받음

🧪 실험: 무엇을 검증했는가?

📊 데이터셋

Foursquare (12개 도시, sparse) + ISP (상하이, dense) 데이터 사용
Foursquare는 2012~2013, ISP는 2016년 데이터로 LLM 사전학습 시기 이후 데이터도 포함됨 → 데이터 누출 방지

⚖️ 비교 대상

딥러닝 기반 (FPMC, RNN, DeepMove, LSTPM, GETNext, STHGCN)
LLM 기반 (LLM-Mob, LLM-ZS, LLM-Move)

✅ 성능 (대표 결과 - Accuracy@1/5, NDCG@5)

AgentMove는 12개 지표 중 8개에서 최고 성능
평균적으로 딥러닝 대비 최대 8.57%, LLM 대비 최대 6.82% 개선
특히 제로샷 성능으로 딥러닝을 능가함

🔍 상세 분석

1. Ablation Study

세 모듈(STM, WKG, CKE)이 모두 성능 향상에 기여
전체 조합 시 최대 45%의 성능 향상

2. 탐색 능력 향상

WKG 추가 시, 최근 방문 위치 재방문률(location return rate) 감소 → 새 장소 탐색이 증가
예시: Llama3-8B에서 87.8% → 75.6%로 감소

3. 지리적 편향 완화

기존 LLM은 도쿄/파리 등 데이터 많은 도시에서 성능 ↑, 나이로비/케이프타운 등에서 성능 ↓
AgentMove는 도시 간 성능 편차를 줄이며 보다 공정한 예측 가능

🔄 LLM 종류에 따른 성능

LLM 종류	특징
Llama3-8B	소형 모델, 기본 성능
Llama3-70B	큰 모델, 대부분 경우에 성능 향상
Llama3.1-405B	초거대 모델, 일부 도시에서는 과적합

🧾 결론 및 의의

LLM 기반 에이전트 구조로 제로샷 위치 예측 가능성을 최초로 입증
기억, 도시 지식, 집단 패턴을 분리된 모듈로 관리함으로써 해석 가능하고 일반화된 예측 실현
도시/국가 간 편향을 완화하며, 다양한 LLM에도 적응력 좋음

⚠️ 한계점

LLM 기반 출력 불확실성 (hallucination, 비현실 주소 등)
LLM 호출 비용으로 인해 대규모 실험 제한
지리적 편향 완전 제거는 어려움

🧭 향후 연구 방향

더 나은 세계지식 추출 및 활용 방식 고안
경량화된 LLM과 on-device inference로 확장성 확보
위치 예측 외의 trajectory classification, generation 등으로 확장 계획

📂 핵심 모듈 요약표

모듈	기능	주요 역할
Spatial-Temporal Memory	개인의 장/단기 이동 저장	사용자 맞춤 예측 보조
World Knowledge Generator	텍스트 기반 주소 활용	도시 구조 기반 탐색 유도
Collective Knowledge Extractor	위치 전이 그래프	유사 사용자 기반 후보 장소 탐색
Final Reasoning	모든 모듈 결합	JSON 형태의 예측 결과 생성

이 논문은 LLM의 세계지식, 추론능력, 메모리 구조 등을 결합한 차세대 위치 예측 프레임워크로, AI 기반 도시/모빌리티 연구에 있어 매우 실질적이며 일반화된 솔루션을 제시한 점에서 큰 의의가 있습니다.

AgentMove 논문은 “LLM 기반 에이전트 아키텍처로 사람의 다음 위치를 제로샷으로 예측”한다는 점에서 기존 연구와 명확히 구분되는 혁신적인 접근입니다. 이 내용을 바탕으로, 관련 분야의 기존 연구들과 유사점과 차이점을 비교하여 체계적으로 정리해보겠습니다.

🔍 1. 관련된 주요 연구 분야

AgentMove가 속하거나 관련된 연구 분야는 크게 다음과 같이 분류할 수 있습니다:

딥러닝 기반 위치 예측 (Deep Learning for Mobility Prediction)
LLM 기반 위치 예측 (LLM-based Mobility Prediction)
LLM 기반 에이전트 구조 (Agentic LLM Frameworks)
도시 구조 인식 및 공간 지식 활용 (Spatial Knowledge Modeling)

각 분야와의 차이점 및 AgentMove의 기여를 하나씩 살펴보겠습니다.

📘 2. 딥러닝 기반 위치 예측과의 비교

🔹 기존 대표 연구

DeepMove (Feng et al., 2018): LSTM + Attention으로 장·단기 이동 패턴 학습
GETNext (Yang et al., 2022): 도시 흐름 기반 Transformer 구조
STHGCN (Yan et al., 2023): Hypergraph로 사용자 간의 관계를 학습

🔹 AgentMove와의 차이점

구분	기존 딥러닝 기반	AgentMove
입력 데이터	좌표, ID 중심의 정형 데이터	텍스트 기반 주소 정보
학습 방식	대량의 사전 훈련 필요	LLM 기반 제로샷 추론
도시 구조 이해	구조적 도시 정보 반영 미약	World Knowledge Generator로 도시 구조 반영
일반화	도시별로 재학습 필요	다양한 도시에서도 Zero-shot으로 사용 가능
개인화	학습된 가중치에 내포	메모리 모듈을 통해 사용자별 이력 반영

🧠 핵심 차별점: AgentMove는 훈련 없이도 바로 사용 가능한 제로샷 모델이며, 사용자 이력, 도시 구조, 다른 사람들의 이동 패턴을 모두 통합적으로 활용한다는 점에서 딥러닝 모델보다 일반화와 해석력이 뛰어남.

📗 3. LLM 기반 위치 예측 연구들과의 비교

🔹 기존 대표 연구

LLM-Mob (Wang et al., 2023): LLM에 단순한 프롬프트를 넣어 위치 예측
LLM-ZS (Beneduce et al., 2024): 다양한 LLM을 제로샷 테스트
LLM-Move (Feng et al., 2024): 주변 POI를 retrieval하여 LLM에 넣는 RAG 방식

🔹 AgentMove와의 차이점

구분	기존 LLM 위치 예측	AgentMove
방식	단일 프롬프트 또는 RAG	에이전트 구조 (모듈화된 처리)
사용자 이력 반영	제한적 (context만 사용)	STM 모듈로 장·단기 패턴 추출
도시 구조 반영	거의 없음	WKG 모듈로 다중 스케일 도시 구조 생성
집단적 패턴 반영	X	CKE 모듈로 다른 사용자와의 연결 고려
추론 방식	단일 호출	구조화된 계획 + 메모리 + 추론 체계 사용

🧠 핵심 차별점: 기존 LLM 방식은 프롬프트 엔지니어링 수준의 접근에 머물렀다면, AgentMove는 LLM을 "에이전트"로 진화시켜 구조화된 reasoning, memory 활용, 외부 도구 연동까지 포함한 전면적 아키텍처 혁신을 제안.

📙 4. LLM 기반 에이전트 프레임워크들과의 비교

🔹 관련 연구

Tree of Thoughts (Yao et al., 2024): 단계별 탐색 기반 문제 해결
ReAct, Reflexion (Yao et al., 2023, Shinn et al.): reasoning + memory 조합
TrajAgent (Du et al., 2024): LLM 기반 이동 분석 프레임워크

🔹 AgentMove와의 차이점

구분	기존 LLM Agent	AgentMove
일반 목적	보드게임, 수학 문제, 플래너	도시 공간 예측 특화
입력 구조	자연어 입력 위주	도시 구조, 위치 데이터 등 복합 구조
외부 도구 사용	간단한 계산, 검색	NetworkX를 통한 graph reasoning
메모리 구조	텍스트 기반 단기 기억	장·단기 이동 기록, 사용자 프로파일 구성

🧠 핵심 차별점: AgentMove는 도메인 특화된 에이전트 설계, 즉 "도시+이동"이라는 특수한 맥락에 최적화된 모듈 설계를 도입하였으며, 일반 에이전트보다 도메인 적응력이 뛰어남.

📒 5. 지리 지식 기반 LLM 연구들과의 비교

🔹 관련 연구

GeoLLM (Manvi et al., 2023): LLM이 공간 개념을 얼마나 알고 있는가
CityGPT (Feng et al., 2024): LLM의 도시 구조 이해력 평가
UrbanGPT (Li et al., 2024): 도시 예측을 위한 LLM pretraining

🔹 AgentMove와의 차이점

구분	기존 지리 LLM	AgentMove
목표	LLM의 지리 능력 분석	실제 이동 예측에 적용
입력 형태	좌표 → 텍스트 변환	주소 기반 구조적 프롬프트 설계
평가 대상	LLM의 공간 표현 능력	실제 위치 예측 성능으로 효과 검증

🧠 핵심 차별점: GeoLLM 등이 "LLM이 공간을 얼마나 아는가"를 평가했다면, AgentMove는 그 지식을 실질적인 이동 예측 문제에 통합·응용하는 실천적 모델입니다.

✨ 종합: AgentMove의 독자적 기여

예측 구조	에이전트 기반 모듈 구조를 제안 (planning, memory, knowledge, reasoning 등)
사용자 개인화	장·단기 기억, 사용자 프로파일을 통합적으로 반영
도시 인식	텍스트 주소 기반으로 도시 구조적 맥락을 생성
사회적 학습	집단 이동 패턴을 추출하는 사회적 그래프 사용
일반화 능력	제로샷 설정에서 딥러닝 모델보다 높은 성능 확보
도시 간 공정성	지리적 편향 완화에 기여 (도쿄 vs 케이프타운)

✅ 요약

AgentMove는 딥러닝과 LLM 기반 방식의 장점을 결합하고, 기존 LLM 예측 연구가 가진 단점을 보완한 도메인 특화형 에이전트 구조입니다. 단순한 프롬프트 기반 추론이 아닌, 기억, 지식, 사회적 행동, 구조적 추론을 통합한 종합적인 접근이라는 점에서 기존 연구와 명확히 구분됩니다.

🧠 전체 구조 요약

AgentMove는 LLM을 중심으로 한 모듈형 에이전트 구조입니다. 전체 흐름은 다음과 같은 5단계로 진행됩니다:

문제 분해(Task Decomposition)
개인 기억 모듈 (Spatial-Temporal Memory, STM)
도시 지식 생성기 (World Knowledge Generator, WKG)
집단 지식 추출기 (Collective Knowledge Extractor, CKE)
최종 추론 및 예측 (Final Reasoning & Prediction)

각 모듈은 mobility prediction이라는 복잡한 문제를 다양한 시각(개인적, 도시적, 사회적)으로 바라볼 수 있게 구성되어 있습니다.

① 문제 분해 (Task Decomposition)

✔ 개념

LLM에게 바로 "다음 위치를 예측해줘"라고 물으면 추론이 비효율적입니다. 그래서 이 문제를 다음과 같은 세 개의 하위 문제로 분해합니다:

개인의 이동 습관은 어떤가?
도시의 구조는 어디로 사람들을 유도하는가?
다른 사람들은 어디로 이동했는가?

② 개인 기억 모듈 (STM: Spatial-Temporal Memory)

✔ 핵심 목적

개인의 장기적, 단기적 이동 패턴을 파악하여 사용자 맞춤형 이동 예측을 수행합니다.

✔ 구성 요소

Long-term memory: 주로 가는 장소, 특정 시간대 선호도, 장소 간 전이 확률
Short-term memory: 최근 며칠간의 방문 패턴, 마지막으로 간 장소
User Profile: 활동적인 시간대, 선호 장소 유형 요약

✔ 예시

사용자 A의 이동 이력이 다음과 같다고 합시다:

자주 가는 장소: ‘회사(9시)’, ‘헬스장(18시)’, ‘카페(주말 오전)’
최근 3일: ‘회사 → 편의점 → 집’

📌 STM은 이를 LLM이 이해할 수 있도록 다음과 같은 프롬프트로 정리합니다:

User is most active at 9AM and 6PM. Frequently visits Gym, Cafe, and Office. Recently visited Office, Convenience Store, and Home.

이 요약은 LLM이 이 사용자의 습관을 기억하고 추론할 수 있도록 도와줍니다.

③ 도시 지식 생성기 (WKG: World Knowledge Generator)

✔ 핵심 목적

LLM이 지도나 좌표가 아니라, 텍스트 기반으로 도시 구조를 이해하도록 도와줍니다.

✔ 수행 과정

좌표 정보를 OpenStreetMap을 통해 주소화:
- 위도/경도 → "서울시 강남구 테헤란로 123"
LLM에게 "이 근처에 사람들이 자주 가는 POI를 알려줘" 요청
Multi-scale 구조로 후보 장소 생성:
- 구/동/거리/POI 수준으로 계층적으로 생성

✔ 예시

현재 사용자가 ‘서울시 종로구 대학로’를 자주 방문했다면:

📌 LLM에게 이렇게 묻습니다:

Given the user frequently visits 대학로, 종로구, suggest potential future districts, streets, and POIs for exploration.

→ 출력:

Subdistricts: 혜화동, 종로2가
POIs: 마로니에공원, 낙산공원, 혜화아트센터

이를 통해 사용자가 이전에 가지 않았지만 탐색할 가능성이 있는 장소를 확보할 수 있습니다.

④ 집단 지식 추출기 (CKE: Collective Knowledge Extractor)

✔ 핵심 목적

다른 사람들과의 유사한 이동 패턴을 활용하여 예측의 정확도를 높입니다.

✔ 수행 방식

사용자 전체의 이동 데이터를 NetworkX로 이동 그래프로 구성
- 노드: 장소
- 엣지: 이동 (ex. A → B)
특정 사용자의 최근 위치로부터 1-hop, 2-hop 이웃 노드 탐색
LLM이 이 중 가장 가능성 높은 장소를 선택

✔ 예시

사용자 B가 ‘연남동 카페’를 자주 간다면, 유사한 사용자들이 자주 갔던 장소는:

연트럴파크, 망원시장, 상수역 근처 음식점 등

📌 LLM에게 다음과 같이 제공합니다:

1-hop neighbors from 연남동 카페: 연트럴파크, 홍대입구역, 망원시장.
Select the most relevant ones for next visit.

이런 식으로 개인의 데이터가 부족해도 집단의 힘을 활용할 수 있습니다.

⑤ 최종 추론 및 예측 (Final Reasoning & Prediction)

✔ 구성

앞서 수집한 정보를 모두 모아서 하나의 프롬프트로 LLM에게 전달합니다.

✔ 예시 Prompt

## Task
Predict <next_place_id> given the target stay time and recent activity.

## Memory-based profile
User usually visits Cafe and Gym at 6PM. Last visited Office and Convenience Store.

## World knowledge
Nearby districts: 종로2가, 혜화동
Nearby POIs: 마로니에공원, 대학로아트센터

## Similar user behaviors
Users visiting similar places also went to 낙산공원 and 홍대입구역.

## Target Time: 6PM, Friday

✔ LLM Output (예측)

{
  "prediction": ["마로니에공원", "혜화아트센터", "낙산공원", "홍대입구역", "망원시장"],
  "reason": "User prefers cafe areas on Friday evenings, frequently explores nearby parks, and other users with similar behavior visited 낙산공원 recently."
}

이처럼 다양한 정보 소스를 기반으로 LLM이 추론을 수행하며, 단순한 "다음 장소" 예측을 넘어 왜 그 장소인지에 대한 이유까지 제시합니다.

🧾 전체 요약: AgentMove 작동 흐름

단계	설명	입력	결과
1. 문제 분해	개인/도시/집단 관점 분리	사용자 이동 로그	하위 문제 정의
2. 개인 기억 (STM)	장·단기 이동 패턴 추출	방문 시간, 장소, 빈도	사용자 프로파일 프롬프트
3. 도시 지식 (WKG)	도시 구조 기반 POI 생성	텍스트 주소	탐색 후보 POI 리스트
4. 집단 지식 (CKE)	유사 사용자 이동 경로 추출	이동 그래프	추천 후보 POI
5. 최종 추론	모든 정보 통합하여 예측	위 3개 정보 + 시간	다음 장소 Top-K 및 이유

✅ 마무리

AgentMove는 단순히 LLM에 이동 로그를 넣고 결과를 받는 구조가 아니라, LLM을 마치 에이전트처럼 ‘기억’, ‘계획’, ‘탐색’, ‘추론’을 수행하도록 설계한 도메인 특화 Agent Architecture입니다.

이러한 방식은 향후 다양한 도시 데이터 기반 작업(경로 생성, 교통 최적화, 추천 시스템 등)에도 확장 가능성이 매우 높습니다.

📊 1. 실험 결과 요약 (Results Summary)

AgentMove는 다음과 같은 다양한 환경에서 기존 SOTA 방법들과 비교하여 강력한 성능 우위를 입증했습니다.

✅ 데이터셋

Foursquare (FSQ): 12개 도시의 check-in 데이터
ISP Trajectory: 상하이 지역의 GPS 로그 (LLM 학습 시점 이후 공개 → 데이터 누출 방지)

✅ 평가 지표

Accuracy@1 / @5
NDCG@5

✅ 비교 대상

딥러닝 기반: RNN, DeepMove, LSTPM, GETNext, STHGCN 등
LLM 기반: LLM-Mob, LLM-ZS, LLM-Move 등

📈 주요 성능 결과 (Table 1 기준)

도시	AgentMove 성능 (Acc@1)	최강 딥러닝 대비 개선율	최강 LLM 대비 개선율
Tokyo	0.185	↓ 9.76% (vs GETNext)	=
Sao Paulo	0.230	↑ 25.71% (vs LSTPM)	↑ 4.55%
Moscow	0.160	↓ 11.11%	↓
Shanghai ISP	0.190	↑ 8.57%	↑ 5.88%

총 12개 지표 중 8개에서 1위 달성
특히 제로샷 환경임에도 딥러닝 모델을 능가
집단 패턴 학습 (CKE)과 도시 지식 생성 (WKG)이 LLM의 탐색 성능을 높임

🧪 Ablation Study 결과 (Table 2)

STM, WKG, CKE 각각의 기여도 검증
세 모듈 모두 성능 개선에 기여하며, 조합 시 최대 45% 개선 효과
WKG는 탐색 확률 증가 → Location Return Rate 감소 (Table 3)

구성	Acc@1 (SaoPaulo)	향상률
Base (단순 prompt)	0.165	-
+STM	0.190	↑ 15.1%
+WKG	0.175	↑ 6.0%
+CKE	0.175	↑ 6.0%
STM+WKG	0.240	↑ 45.4%
All (AgentMove)	0.230	↑ 39.4%

🌍 Geospatial Bias 분석 (Figure 4)

LLM은 도쿄, 파리, 시드니 등에서 성능 ↑, 나이로비, 케이프타운 등에서는 ↓
AgentMove는 편차가 적고 예측 정확도가 고르게 유지됨 → 지리적 편향 감소

🧠 LLM 종류에 따른 영향 (Figure 5)

LLM의 크기가 클수록 성능 향상 (특히 Llama3.1-405B)
AgentMove는 7B~405B LLM 모두에서 안정적 성능 유지
특정 도시(도쿄)에서는 70B가 405B보다 좋은 경우도 존재 → 도시 특성과 LLM 매칭 필요

🧾 2. 결론 (Conclusion)

✅ 핵심 기여 요약

최초로 LLM 기반의 에이전트 프레임워크를 모빌리티 예측에 적용
개인, 도시, 사회적 관점을 통합한 구조 설계
제로샷 추론으로도 딥러닝 모델과 경쟁하거나 능가하는 성능 입증
다양한 도시에서도 일관된 성능 유지 → 범용성 우수

✅ 실제 효과

도시 구조, 사용자 패턴, 사회적 흐름을 통합적으로 고려함으로써 이전보다 정밀하고 일반화된 위치 예측 가능
LLM의 지식+추론+메모리 능력을 실질적 문제에 접목한 사례로서, AI + Urban Intelligence 융합의 가능성 제시

⚠️ 3. 한계 (Limitations)

LLM 의존 → 비용 문제
- OpenAI API 또는 HuggingFace API 호출 비용으로 인해 테스트 샘플 수 제한 (각 도시 200건)
LLM Hallucination 위험
- 실제 존재하지 않는 장소, 잘못된 주소를 생성할 수 있음
- 실환경에서는 정제된 지리 정보 DB와의 통합 필요
지리적 편향 완전 제거는 어려움
- LLM의 사전 학습 데이터가 특정 국가/도시에 편향되어 있음

🌱 4. 향후 연구 방향 (Future Work)

효율적인 LLM 활용
- LoRA, 지식 증류, 모델 압축 등을 통해 온디바이스 확장 가능성 확보
타 과제 확장
- 경로 생성, 위치 기반 추천, trajectory classification 등으로 확장
지식 통합 강화
- OpenStreetMap, POI DB 등 외부 지리 지식과의 결합으로 LLM의 정확도 및 실용성 강화

🧠 마무리 요약

연구 목표	제로샷 이동 예측을 위한 LLM 기반 에이전트 설계
핵심 전략	개인(STM), 도시(WKG), 사회 집단(CKE) 통합
성능 요약	딥러닝·기존 LLM 모델 대비 최대 45% 성능 향상
한계	LLM 비용, 헛소리(hallucination), 지리적 편향
가치	실제 도시 공간 문제에 LLM agent 적용 가능성 입증

이 논문은 “LLM을 도메인 지식이 필요한 실제 문제에 어떻게 agent화하여 적용할 수 있을 것인가”에 대한 매우 좋은 사례입니다. 관련 후속 연구나 agent framework 확장 실험을 계획하신다면, 언제든 구체적 가이드를 도와드릴 수 있습니다.

저작자표시 비영리 (새창열림)

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Planning 논문 모아 보기 NAACL 2025 - 3 (1)	2025.05.03
Agent, Hallucination 관련, Planning 논문 모아 보기 NAACL 2025 - 2 (5)	2025.05.02
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model (1)	2025.04.30
MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration (1)	2025.04.29
CoV:Chain-of-Verification Reduces Hallucination in Large Language Models - 논문 리뷰 (1)	2025.04.26

현재글Agent, Hallucination 관련, Planning 논문 모아 보기 NAACL 2025 - 1

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30