https://arxiv.org/abs/2604.25917
Recursive Multi-Agent Systems
Recursive or looped language models have recently emerged as a new scaling axis by iteratively refining the same model computation over latent states to deepen reasoning. We extend such scaling principle from a single model to multi-agent systems, and ask:
arxiv.org
Agent끼리의 소통을 텍스트 기반 대화가 아닌 latent space 기반으로 진행
Hidden state를 RecursiveLink라는 작은 projection module로 연결하고, 전체 MAS를 대화 라운드 동안 강화하도록 반복

더 긴 라운드를 진행할 수 있게 되면 성능이 높아지는 모습을 보인다.
다양한 MAS 구조에서도 좋은 성능을 보여주는 것을 보인다.

Inner RecursiveLink는 한 에이전트 내부 latent thought를 생성하며 마지막 layer의 hidden state 를 다시 input embedding space로 변환해 latent autoregressive reasoning을 수행한다.
Outer RecursiveLink는 서로 다른 에이전트간 latent state 전달로 서로 다른 모델 크기, dimension을 정렬함
RecursiveLink는 2-layer MLP + GELU + residual connection 구조.

자기 자신한테 보내는 inner link와 외부에 보내는 outer link

Inner loop training은 각 에이전트가 latent thought를 안정적으로 생성하도록 warm-up하는 단계로, inner RecursiveLink를 cosine regression loss로 학습
Ourer-loop training은 여러 에이전트의 latent collaboration flow를 최적화는 것으로, Outer RecursiveLink를 final answer CE loss로 학습
llm 자체는 학습하지 않고 RecursiveLink만 학습!
stage 1학습이 좀 더 명확하게 있으면 편하겠네요

| Collaboration Pattern | 구성 | 목적 |
| Sequential Style | Planner → Critic → Solver | 단계적 추론 |
| Mixture Style | Math / Code / Science Specialist + Summarizer | 전문 에이전트 조합 |
| Distillation Style | Expert + Learner | 큰 모델 지식을 작은 모델에 전달 |
| Deliberation Style | Reflector + Tool-Caller | 도구 사용 및 자기반성 기반 추론 |

기존 text를 사용하는 것 보다 높은 정확도, inference speed 향상, 토큰 사용량도 줄게 된다.
라운드가 증가할 수록 이 차이는 더욱 더 늘어난다.

다른 방법론에 비해 정확도도 꾸준히 높은 것을 볼 수 있다.

여기선 효율성을 보여줍니다.

Recursion round가 증가할 수록 생성된 임베딩 분포가 정답 임베딩 분포와 가까워지는 것을 볼 수 있었음 => 단순히 반복하는 것이 아닌 latent representation을 통해 점진적으로 정답 분포에 맞춰 refine함
RecursiveLink의 구조에 대해서도 다양하게 만들어 봤으나 2-Layer + Res 구조가 가장 높은 성능을 보였음
| 핵심 아이디어 | 기존 Multi-Agent System(MAS)의 에이전트 간 협업을 텍스트 기반 대화가 아니라 latent state 기반 recursive computation으로 바꾼다. 즉, 여러 에이전트를 하나의 재귀적 계산 그래프처럼 연결해 반복적으로 latent thought를 refinement한다. |
| 해결하려는 문제 | 기존 MAS는 중간 결과를 텍스트로 생성하고 다시 읽는 방식이라 token 비용, latency, decoding/re-encoding overhead가 크다. 또한 각 에이전트를 개별적으로 prompt tuning하거나 학습하기 때문에 시스템 전체 collaboration flow를 end-to-end로 최적화하기 어렵다. |
| 제안 방법 | 각 에이전트는 latent representation을 생성하고, 이를 다음 에이전트로 전달한다. 마지막 에이전트의 latent output은 다시 첫 번째 에이전트로 돌아가며 recursion loop를 형성한다. 중간 round에서는 텍스트를 생성하지 않고, 최종 round에서만 textual answer를 decoding한다. |
| 핵심 모듈 | 2-layer residual projection module로, latent state를 다른 embedding space로 변환한다. Inner RecursiveLink는 한 에이전트 내부에서 latent thought를 계속 생성하게 하고, Outer RecursiveLink는 서로 다른 모델/에이전트 사이의 hidden representation을 연결한다. |
| 학습 방식 | Inner-Outer Loop Training. 1단계에서는 각 에이전트의 Inner RecursiveLink를 warm-up하여 latent thought generation을 안정화한다. 2단계에서는 전체 MAS loop를 unroll한 뒤, final answer의 CE loss를 통해 Outer RecursiveLink를 system-level로 최적화한다. LLM backbone은 freeze하고 RecursiveLink만 학습한다. |
| 적용한 MAS 구조 | 네 가지 협업 패턴에 적용했다: Sequential Style: Planner → Critic → Solver, Mixture Style: Math/Code/Science Specialist + Summarizer, Distillation Style: Expert + Learner, Deliberation Style: Reflector + Tool-Caller. |
| 평가 벤치마크 | 수학, 과학, 의료, 코드, 검색 QA 등 9개 benchmark에서 평가했다. 사용 benchmark는 MATH500, AIME2025, AIME2026, GPQA-Diamond, MedQA, LiveCodeBench-v6, MBPP Plus, HotpotQA, Bamboogle이다. |
| 주요 결과 | RecursiveMAS는 single-agent, LoRA/Full-SFT, TextGrad, LoopLM, Recursive-TextMAS 등과 비교해 평균 +8.3% accuracy improvement를 보였다. 또한 1.2×–2.4× inference speedup, 34.6%–75.6% token usage reduction을 달성했다. |
| Recursion depth 효과 | recursion round가 증가할수록 RecursiveMAS의 성능과 효율 이점이 커진다. r=3에서는 Recursive-TextMAS 대비 평균 2.4× speedup, 75.6% token reduction을 보인다. |
| Ablation 결과 | RecursiveLink 구조 비교에서 Res+2-Layer가 가장 좋았다. 예를 들어 Math500 88.0, GPQA-D 66.2, LiveCodeBench 42.9로 1-layer, residual 없는 2-layer보다 높다. 이는 residual connection이 latent semantics를 보존하면서 distribution shift만 학습하게 한다는 설계를 뒷받침한다. |
| 추가 분석 | recursion round가 증가할수록 generated answer embedding distribution이 ground-truth embedding distribution에 가까워진다. 논문은 이를 통해 RecursiveMAS가 단순 반복이 아니라 latent representation을 정답 방향으로 점진적으로 refine한다고 해석한다. |
| 장점 | 중간 텍스트 생성을 줄여 효율적이고, 여러 heterogeneous agent를 latent level에서 연결할 수 있으며, 전체 MAS를 하나의 differentiable recursive system으로 최적화한다. 특히 agent collaboration 자체를 scaling axis로 제시했다는 점이 핵심 기여다. |
| 한계 | hidden state 접근이 필요하므로 GPT/Claude 같은 완전 black-box API 기반 MAS에는 직접 적용하기 어렵다. 또한 latent communication은 중간 reasoning이 텍스트로 드러나지 않아 interpretability/debugging이 약할 수 있다. Role-specific training target 구성에도 강한 모델 기반 재작성 과정이 들어간다. |
| 최종 평가 | 이 논문은 MAS를 더 많은 에이전트나 더 긴 CoT로 확장하는 대신, latent-space recursive collaboration으로 확장하는 방법을 제안한다. 연구적으로는 “multi-agent collaboration을 학습 가능한 latent transition system으로 재정의했다”는 점이 가장 중요하다. 실용적으로는 token/latency 절감이 강점이지만, black-box API 환경과 해석 가능성 측면의 제약은 남아 있다. |