인공지능/논문 리뷰 or 진행

Recursive Multi-Agent Systems

이게될까 2026. 5. 15. 22:22
728x90
728x90

https://arxiv.org/abs/2604.25917

 

Recursive Multi-Agent Systems

Recursive or looped language models have recently emerged as a new scaling axis by iteratively refining the same model computation over latent states to deepen reasoning. We extend such scaling principle from a single model to multi-agent systems, and ask:

arxiv.org

Agent끼리의 소통을 텍스트 기반 대화가 아닌 latent space 기반으로 진행 

Hidden state를 RecursiveLink라는 작은 projection module로 연결하고, 전체 MAS를 대화 라운드 동안 강화하도록 반복 

 

 

더 긴 라운드를 진행할 수 있게 되면 성능이 높아지는 모습을 보인다. 

다양한 MAS 구조에서도 좋은 성능을 보여주는 것을 보인다.

Inner RecursiveLink는 한 에이전트 내부 latent thought를 생성하며 마지막 layer의 hidden state 를 다시 input embedding space로 변환해 latent autoregressive reasoning을 수행한다. 

Outer RecursiveLink는 서로 다른 에이전트간 latent state 전달로 서로 다른 모델 크기, dimension을 정렬함 

RecursiveLink는 2-layer MLP + GELU + residual connection 구조. 

자기 자신한테 보내는 inner link와 외부에 보내는 outer link  

Inner loop training은 각 에이전트가 latent thought를 안정적으로 생성하도록 warm-up하는 단계로, inner RecursiveLink를 cosine regression loss로 학습

Ourer-loop training은 여러 에이전트의 latent collaboration flow를 최적화는 것으로, Outer RecursiveLink를 final answer CE loss로 학습 

llm 자체는 학습하지 않고 RecursiveLink만 학습! 

stage 1학습이 좀 더 명확하게 있으면 편하겠네요 

Collaboration Pattern 구성 목적
Sequential Style Planner → Critic → Solver 단계적 추론
Mixture Style Math / Code / Science Specialist + Summarizer 전문 에이전트 조합
Distillation Style Expert + Learner 큰 모델 지식을 작은 모델에 전달
Deliberation Style Reflector + Tool-Caller 도구 사용 및 자기반성 기반 추론

 

기존 text를 사용하는 것 보다 높은 정확도, inference speed 향상, 토큰 사용량도 줄게 된다. 

라운드가 증가할 수록 이 차이는 더욱 더 늘어난다.

 

다른 방법론에 비해 정확도도 꾸준히 높은 것을 볼 수 있다.

여기선 효율성을 보여줍니다.

Recursion round가 증가할 수록 생성된 임베딩 분포가 정답 임베딩 분포와 가까워지는 것을 볼 수 있었음 => 단순히 반복하는 것이 아닌 latent representation을 통해 점진적으로 정답 분포에 맞춰 refine함 

 

RecursiveLink의 구조에 대해서도 다양하게 만들어 봤으나 2-Layer + Res 구조가 가장 높은 성능을 보였음 

핵심 아이디어 기존 Multi-Agent System(MAS)의 에이전트 간 협업을 텍스트 기반 대화가 아니라 latent state 기반 recursive computation으로 바꾼다.
즉, 여러 에이전트를 하나의 재귀적 계산 그래프처럼 연결해 반복적으로 latent thought를 refinement한다.
해결하려는 문제 기존 MAS는 중간 결과를 텍스트로 생성하고 다시 읽는 방식이라 token 비용, latency, decoding/re-encoding overhead가 크다.
또한 각 에이전트를 개별적으로 prompt tuning하거나 학습하기 때문에 시스템 전체 collaboration flow를 end-to-end로 최적화하기 어렵다.
제안 방법 각 에이전트는 latent representation을 생성하고, 이를 다음 에이전트로 전달한다.
마지막 에이전트의 latent output은 다시 첫 번째 에이전트로 돌아가며 recursion loop를 형성한다.
중간 round에서는 텍스트를 생성하지 않고, 최종 round에서만 textual answer를 decoding한다.
핵심 모듈 2-layer residual projection module로, latent state를 다른 embedding space로 변환한다.
Inner RecursiveLink는 한 에이전트 내부에서 latent thought를 계속 생성하게 하고, Outer RecursiveLink는 서로 다른 모델/에이전트 사이의 hidden representation을 연결한다.
학습 방식 Inner-Outer Loop Training. 1단계에서는 각 에이전트의 Inner RecursiveLink를 warm-up하여 latent thought generation을 안정화한다. 2단계에서는 전체 MAS loop를 unroll한 뒤, final answer의 CE loss를 통해 Outer RecursiveLink를 system-level로 최적화한다. LLM backbone은 freeze하고 RecursiveLink만 학습한다.
적용한 MAS 구조 네 가지 협업 패턴에 적용했다: Sequential Style: Planner → Critic → Solver, Mixture Style: Math/Code/Science Specialist + Summarizer, Distillation Style: Expert + Learner, Deliberation Style: Reflector + Tool-Caller.
평가 벤치마크 수학, 과학, 의료, 코드, 검색 QA 등 9개 benchmark에서 평가했다. 사용 benchmark는 MATH500, AIME2025, AIME2026, GPQA-Diamond, MedQA, LiveCodeBench-v6, MBPP Plus, HotpotQA, Bamboogle이다.
주요 결과 RecursiveMAS는 single-agent, LoRA/Full-SFT, TextGrad, LoopLM, Recursive-TextMAS 등과 비교해 평균 +8.3% accuracy improvement를 보였다. 또한 1.2×–2.4× inference speedup, 34.6%–75.6% token usage reduction을 달성했다.
Recursion depth 효과 recursion round가 증가할수록 RecursiveMAS의 성능과 효율 이점이 커진다. r=3에서는 Recursive-TextMAS 대비 평균 2.4× speedup, 75.6% token reduction을 보인다.
Ablation 결과 RecursiveLink 구조 비교에서 Res+2-Layer가 가장 좋았다. 예를 들어 Math500 88.0, GPQA-D 66.2, LiveCodeBench 42.9로 1-layer, residual 없는 2-layer보다 높다. 이는 residual connection이 latent semantics를 보존하면서 distribution shift만 학습하게 한다는 설계를 뒷받침한다.
추가 분석 recursion round가 증가할수록 generated answer embedding distribution이 ground-truth embedding distribution에 가까워진다. 논문은 이를 통해 RecursiveMAS가 단순 반복이 아니라 latent representation을 정답 방향으로 점진적으로 refine한다고 해석한다.
장점 중간 텍스트 생성을 줄여 효율적이고, 여러 heterogeneous agent를 latent level에서 연결할 수 있으며, 전체 MAS를 하나의 differentiable recursive system으로 최적화한다. 특히 agent collaboration 자체를 scaling axis로 제시했다는 점이 핵심 기여다.
한계 hidden state 접근이 필요하므로 GPT/Claude 같은 완전 black-box API 기반 MAS에는 직접 적용하기 어렵다. 또한 latent communication은 중간 reasoning이 텍스트로 드러나지 않아 interpretability/debugging이 약할 수 있다. Role-specific training target 구성에도 강한 모델 기반 재작성 과정이 들어간다.
최종 평가 이 논문은 MAS를 더 많은 에이전트나 더 긴 CoT로 확장하는 대신, latent-space recursive collaboration으로 확장하는 방법을 제안한다. 연구적으로는 “multi-agent collaboration을 학습 가능한 latent transition system으로 재정의했다”는 점이 가장 중요하다. 실용적으로는 token/latency 절감이 강점이지만, black-box API 환경과 해석 가능성 측면의 제약은 남아 있다.
728x90