인공지능/논문 리뷰 or 진행

NaviAgent, AGENTORCHESTRA

이게될까 2026. 1. 11. 00:27
728x90
728x90

https://arxiv.org/abs/2506.19500

 

NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration

Large language models (LLMs) have recently demonstrated the ability to act as function call agents by invoking external tools, enabling them to solve tasks beyond their static knowledge. However, existing agents typically call tools step by step at a time

arxiv.org

 

ICLR 2026에도 제출된 것 같은데...

 

기존 Agent는 순차적 호출로 인해 전체 작업 구조에 대한 글로벌 뷰가 부족하고, 오류가 누적되어 API 실패 시 복구 어려움, 도구가 많을 때는 확장성 부족으로 조합 폭발, 정적 구조로 API 변경, 추가, 폐기 시에 적응이 불가하다는 문제가 있다. 

Tool간 의존성이 명시적으로 모델링되지 않으며, 카탈로그는 flat하며 실제 조합 관계를 반영하지 못한다.

 

NaviAgent는 도구 호출을 action이 아니라 navigation 즉 탐색 문제로 재정의해서 이중 계층 구조를 운용 

=> 상위 계층은 LLM이 무엇을 할지 결정하고, 하위 계층은 그래프 기반 모델이 어떤 도구 경로를 실행할지 결정함 

 

LLM Agent는 매 시점마다 4가지 행동 중 하나를 션택 

Action 의미
Direct Response 상식/지식 기반으로 바로 응답
Intent Clarification 사용자 의도 불명확 → 질문
ToolChain Retrieval 도구 그래프에서 실행 가능한 toolchain 탐색
Tool Execution 선택된 toolchain 실행

상태는 최근 3-step(observation, action) 히스토리를 사용함 = 정확도와 효율의 균형

LLM 학습은 SFT로 올바른 action 선택 확률을 최대화하도록 한다.

 

하위 레벨은 그래프로 정의하여 노드인 API와 Parameter가 존재하고, 엣지에는 Structural edges인 API schema 기반이 존재하고, Behavioral edges인 실제 호출 로그 기반이 존재 

엣지 가중치는 실제로 얼마나 자주 같이 쓰였는가를 본다.

그래프 학습은 정확한 연결 여부와 중요한 의존성 강조를 동시에 파악해서 학습함 

실제 도구 환경은 계속 변하는 것을 반영하여 그래프는 계속 진화한다. 

훨씬 효율적인 것을 볼 수 있다.

 

전체적인 그래프와 실행 단에서 삭제되는 엣지를 보여준다.

(h'_u, h'_v) API/parameter 임베딩
(W_Q, W_K) 관계별(relation-specific) projection
(b_r) 구조/행동 엣지 타입 bias
w_uv 실행 로그 기반 통계 weight

실제 로그가 weight에 더해져 attention이 들어가게 된다.

둘 중에 하나만 올리는 것이 아닌 소프트 라벨을 통해 얼마나 강한 연결인가를 맞추게 함 

중요한 edge일 수록 마진을 키워서 critical dependency(특정 API가 실제로 성공적인 toolchain을 성립시키는데 결정적으로 기여한 의존 관계. w_uv 1이며 이 edge가 없으면 대체 경로가 거의 없거나 실패하여 실제 실행 실패율이 매우 높아지고, API 실행 가능성을 질적으로 바꿈 )를 embedding space에서 더 멀리 한다.

초반엔 정확도를 위한 CE를 주로 학습하고, 후반엔 구조화를 위한 Margin을 중심으로 학습한다.

 

 

https://arxiv.org/abs/2506.12508

 

AgentOrchestra: Orchestrating Hierarchical Multi-Agent Intelligence with the Tool-Environment-Agent(TEA) Protocol

Recent advances in LLMs-based agent systems have demonstrated remarkable capabilities in solving complex tasks. Nevertheless, current protocols (e.g., A2A and MCP) suffer from insufficient capabilities in context management, limited adaptability to diverse

arxiv.org

기존 에이전트와 툴 프로토콜은 AGI로 확장되기 어렵다!

MCP는 툴 중심 프로토콜로 툴 호출 맥락만 관리하며 환경, 에이전트 상태를 포괄하지 못 함
각 환경마다 관측이나 행동 공간이 수작업으로 설계 되어 범용화 어려움
에이전트 역할이 고정되어 동적 협업이나 위계적 조직화가 어려움 
새로운 환경, 툴, 에이전트 추가 시 재설계 비용이 크다!

=> 도구만 다루는 설계는 실제 지능 시스템에 필수적인 환경과 에이전트를 충분히 표현하지 못함 

 

TEA - 환경, 툴, 에이전트 모두를 1급 객체(first-class resource)로 다룸 

 

TEA 3대 프로토콜 

프로토콜 기능
TCP (Tool Context Protocol) 툴의 입력·출력·메타데이터 표준화
ECP (Environment Context Protocol) 환경 상태, 규칙, 상호작용 정의
ACP (Agent Context Protocol) 에이전트의 역할, 능력, 상태, 관계 관리

변환 의미 예시
A → T (A2T) 에이전트 자체를 하나의 툴로 래핑 “Deep Research Agent”를 검색 툴로 사용
T → A (T2A) 툴을 능동적 에이전트의 actuator로 사용 SQL 툴을 쓰는 분석 에이전트
E → T (E2T) 환경 행동을 표준 툴 인터페이스로 변환 브라우저 클릭/스크롤 통합
T → E (T2E) 툴 집합을 하나의 환경으로 승격 IDE 도구 묶음을 프로그래밍 환경으로
A → E (A2E) 에이전트를 환경처럼 노출 학습된 트레이딩 에이전트를 시뮬레이터로
E → A (E2A) 환경에 자율적 의사결정 부여 게임 환경이 적응형 AI 플레이어로 변환

=> 시스템 구성 요소의 역할이 고정되지 않고 task에 따라 동적으로 재구성 

 

 

 

AGENTORCHESTRA는 TEA로 구현한 hierachical(계층적) MAS다 

planning agent는 시스템의 두뇌 역할을 수행하는 중앙 오케스트레이터로 목표를 해석하고, 복잡한 문제를 sub-task 단위로 분해하며, 적합한 하위 에이전트 툴에 할당, 중간 결과를 반영해 동적으로 재계획한다.

Tool Manager Agent는 툴 생성, 검색, 재사용 모두 담당하여 시스템의 장기 적응성을 확보함 

 

  • User Objective 입력
  • Planning Agent가 목표 해석
  • Sub-task 분해
  • 각 Sub-task를 적절한 Sub-Agent 또는 Tool로 실행
  • 실행 결과를 Memory에 기록
  • 중간 결과에 따라 계획 업데이트
  • 목표 달성 시 종료

 

 

https://arxiv.org/abs/2505.24354

https://arxiv.org/abs/2511.04646?utm_source=chatgpt.com

https://arxiv.org/abs/2510.24937?utm_source=chatgpt.com

https://www.mdpi.com/1999-5903/17/11/517

728x90