인공지능/논문 리뷰 or 진행

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

이게될까 2026. 1. 9. 16:31
728x90
728x90

https://arxiv.org/abs/2511.21689

 

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other model

arxiv.org

NVIDIA 논문입니다.

기존 LLM의 지능은 높지만 복잡한 Agentic task는 추론 비용이 크고, 도구 사용이 비효율적이며, 사용자 선호를 제대로 반영하지 못한다. 

자신 또는 유사한 모델을 과도하게 호출하거나 항상 가장 강력하고 비싼 모델을 호출하여 비용, 효율, 선호에 대한 제어가 불가능함 

그래서 기존에 하나의 거대 모델과 도구를 쓰거나, 프롬프트 기반 orchestrator를 사용하는 것에서 작은 모델이 다양한 도구와 모델을 조율하도록 만들려고 함 

성능이 GPT보다 좋다.

어려운 벤치마크에서 기존 Agent의 성능을 이기는 모습을 보여줌 

 

중앙에 Orchestrator를 두고 주변에 Tool을 사용하도록 함
문제를 분해하여 어떤 도구와 모델을 언제, 몇 번, 어떤 순서로 호출할지를 결정하여 성능, 비용, 지연, 사용자 선호를 동시에 최적화 

 

다중 턴 Tool-use 문제를 MDP로 정식화 한다. 

 

state : query, 이전 reasoning, 이전 tool call 결과

action : reasoning token 생성, tool 호출 (모델도 tool로 호출)
cost : API 비용, 토큰
Latency : wall-clock 시간
Preference alignment : 사용자 선호 벡터와 일치도 

 

GRPO를 통해 Orchestrator를 학습 

여기선 절대 점수보단 각 Trajectory를 점수내어 상대적으로 가장 좋은 것을 사용 

루프는 rollout -> reward => advantage -> policy -> update를 반복 

문제에 대해 사용자 선호 벡터를 만들고, 다양한 trajectory를 생성 
trajectory τ는 reasoning, toolcall, tool response, reasoning.... 을 포함하여 최대 턴수를 반복 (tool을 어떤 순서로 호출했는지도 포함)

정답이면 정답에 대한 리워드를 줌 

solved 판정은 벤치마크나 환경 별로 다르다. 

각 트레젝토리에서 호출 회수, 정답, conpute cost, layency를 다 합쳐서 M을 만듬 

실패는 reward를 항상 0으로 gating하고, 성공한 trajectory 안에서 미세조정 

GRPO Advantage를 계산한다. 

평균보다 좋은 해답이면 양수를 주고, 평균보다 나쁘면 음수를 줘서 같은 문제내 상대 우열이 학습 신호가 됨 

정책 업데이트를 진행함 

결국 좋은 trajectory인 확률을 올리되 너무 크게 올리진 않음 

for each training step:
  batch = sample tasks {u_i, toolset_i, preference P_i}
  for each task i:
    T_i = []
    for j in 1..m:  # group size
      tau_ij = rollout(pi_theta, u_i, toolset_i, max_turn=50)
      T_i.append(tau_ij)

    # compute rewards
    for tau in T_i:
      outcome = solved(tau) ? 1 : 0
      M_tau = [tool_call_counts..., outcome, -cost(tau), -latency(tau)]
    normalize M_tau within group T_i (min-max per dimension)

    for tau in T_i:
      if outcome==1: R(tau)= dot(M_tau_norm, P_i)
      else:          R(tau)=0

    # group-relative advantage
    A(tau) = (R(tau)-mean(R))/std(R)

    # PPO/GRPO update using clipped objective on logprob ratio
    update theta with L_GRPO

 

정답이 검증 가능한 Tool 데이터가 거의 없다

=> ToolScale 을 통해 각 도메인마다 schema를 생성하고, Tool API 생성하여 시퀀스를 진행할 수 있게 된다.

=> RL 학습을 위한 multi-turn trajectory를 확보할 수 있음 

 

이를 통해 cost를 낮추고 성능을 높일 수 있었음 

728x90

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

NaviAgent, AGENTORCHESTRA  (0) 2026.01.11
Privacy AI 관련 조사 6  (0) 2026.01.05
실험 정리 - PrivacyRestore  (1) 2025.12.12
세부 정리 - PrivacyRestore  (0) 2025.12.08
Privacy AI 관련 조사 5  (0) 2025.12.06