https://arxiv.org/abs/2203.07665
One Agent To Rule Them All: Towards Multi-agent Conversational AI
The increasing volume of commercially available conversational agents (CAs) on the market has resulted in users being burdened with learning and adopting multiple agents to accomplish their tasks. Though prior work has explored supporting a multitude of do
arxiv.org
이 논문은 오래된 논문입니다.
그래서 GPT 3,4와 같이 모든 도메인을 잘 하는 모델이 아니라 각 도메인에 특화된 모델을 여러 개 사용하여 그 중 가장 좋은 응답을 고르는 인코더를 만들어서 가장 좋은 응답만을 출력하게 됩니다.
지금은 GPT 4o만 사용해도 될 것을 이전에는 다중 모델을 통해 해결한 모습을 볼 수 있습니다.
요약 및 분석: "One Agent to Rule Them All: Towards Multi-agent Conversational AI"
1. 논문의 문제 정의
- 문제점: 현재 상용 대화형 에이전트(Conversational Agents, CAs)는 각각 특정 도메인에 특화되어 있어 사용자가 여러 에이전트를 사용해야 작업을 완료해야 하는 부담이 있습니다. 이는 사용자의 학습 곡선과 인지적 부담을 증가시키며, 에이전트의 보급에 장애물이 됩니다.
- 해결 목표: 다중 도메인을 처리할 수 있는 단일 인터페이스를 개발해 사용자가 여러 에이전트를 학습할 필요 없이 하나의 에이전트를 통해 여러 에이전트의 기능을 활용하도록 만드는 것입니다.
2. 제안 방법
- BBAI (Black-Box Agent Integration): 내부 구조를 알 수 없는 블랙박스 에이전트를 통합하는 새로운 과제를 정의하고, 이를 해결하기 위해 두 가지 주요 기술을 제안했습니다.
- 질문-에이전트 매칭 (Question-Agent Pairing):
- 사용자 질문과 에이전트의 기능 정보를 기반으로 질문을 처리할 가장 적합한 에이전트를 예측합니다.
- 이를 다중 레이블 분류 문제로 정의하고, BERT, RoBERTa 등의 사전 학습된 모델을 사용해 학습합니다.
- 질문-응답 매칭 (Question-Response Pairing):
- 질문에 대한 여러 에이전트의 응답을 비교하여 가장 적합한 응답을 선택합니다.
- MARS (Multi-Agent Response Selection): 사용자 질문과 에이전트 응답을 함께 인코딩하여, 질의에 가장 적합한 응답을 선택하도록 설계된 새로운 인코더 모델입니다.
- 질문-에이전트 매칭 (Question-Agent Pairing):
- One For All (OFA) 시스템:
- 상기 기술을 통합하여 여러 에이전트를 통합 관리할 수 있는 단일 시스템을 설계했습니다.
- MARS는 OFA 시스템에서 질문-응답 매칭을 수행하며, 크로스 인코딩 방식을 활용해 질문과 응답 간의 관계를 깊이 있게 모델링합니다.
3. 주요 실험 결과
- BBAI 과제 성능:
- MARS 모델은 83.55%의 정확도로 기존 단일 에이전트(예: Google Assistant) 대비 32% 성능 향상을 보였습니다.
- 도메인별 성능:
- 질문-응답 매칭(MARS)은 다양한 도메인(날씨, 여행 추천 등)에서 안정적으로 높은 성능을 기록했습니다.
- 질문-에이전트 매칭(Question-Agent Pairing)은 도메인 겹침(예: Alexa와 Google이 모두 날씨 정보를 제공할 때)에서 혼란을 겪었습니다.
- 확장성:
- MARS 기반 시스템은 새로운 에이전트를 추가하더라도 성능 저하 없이 통합 및 확장이 가능함을 보였습니다.
4. 한계점
- 네트워크 및 계산 비용:
- 질문-응답 매칭 방식은 모든 에이전트에 질문을 보내고 응답을 기다려야 하므로 네트워크 지연 및 추가 계산 자원이 필요합니다.
- 데이터 의존성:
- 에이전트의 기능을 이해하기 위한 데이터(질문 예시 또는 기능 설명)가 필요하며, 이 데이터의 품질과 가용성에 따라 성능이 좌우됩니다.
- 복잡한 질의 처리:
- 특정 복잡한 질문(예: 다중 도메인 간의 연계 질문)에서 일부 에이전트가 실패할 가능성이 있습니다.
5. 논문의 타당성 및 아쉬운 점
- 타당성:
- 블랙박스 에이전트를 통합하려는 접근은 실제 상용 환경에서 발생하는 문제를 잘 반영하고 있습니다.
- 기존 에이전트의 한계를 극복하고 사용자 경험을 단순화하려는 노력은 인공지능의 상용화를 촉진할 가능성이 큽니다.
- 아쉬운 점:
- 사용자 개인화:
- 개별 사용자의 선호도나 맥락을 반영한 에이전트 추천이나 응답 매칭이 부족합니다.
- 에이전트 간 지식 공유:
- 다중 턴 대화에서 에이전트 간 지식이나 대화 이력을 공유하는 기능은 고려되지 않았습니다.
- 실시간 요구 사항:
- 실시간 시스템에서 높은 계산 비용이 제약으로 작용할 수 있습니다.
- 사용자 개인화:
6. 향후 연구 방향
- 지식 통합:
- 에이전트 간의 대화 맥락을 공유하고 학습하여 협력적 대화 기능을 강화하는 방향을 고려할 수 있습니다.
- 응답 최적화:
- 응답 선택 과정을 최적화하여 계산 비용을 줄이는 연구가 필요합니다.
- 사용자 맞춤형 시스템:
- 사용자 프로필을 활용하여 질문과 응답 매칭 과정을 개인화할 수 있습니다.
이 논문은 인공지능 에이전트의 통합 및 효율성 증대에 중요한 기여를 했으며, 이를 기반으로 다중 에이전트 시스템 개발에 적용 가능한 다양한 아이디어를 도출할 수 있습니다.
그럼 여기선 입력에 대해 다양한 모델들이 출력을 진행하고 거기서 가장 적절한 정답을 찾는 multi classification 하는 인코더 모델을 만든 거네?
네, 정확합니다! 이 논문에서 제안한 MARS(Multi-Agent Response Selection) 모델은 입력 질문에 대해 여러 에이전트가 생성한 출력(응답) 중 가장 적합한 응답을 선택하는 다중 분류(multi-class classification) 문제를 해결하기 위해 설계되었습니다.
동작 원리
- 입력 및 출력:
- 입력: 사용자 질문 (Query, )
- 출력 후보: 여러 에이전트의 응답 (R={R1,R2,...,Rn}
- 목표는 가장 적합한 질문-응답 쌍 (Q,R_i)를 선택하는 것입니다.
- 모델 구조:
- Cross-Encoder 방식:
- 질문과 각 응답을 하나의 Transformer 모델에 입력해, 두 문장 간의 관계를 학습합니다.
- 모델은 질문과 응답 간의 "적합도"를 스칼라 값(0~1)로 예측합니다.
- 모든 질문-응답 쌍에 대해 이러한 적합도를 계산한 뒤, 가장 높은 점수를 가진 응답을 선택합니다.
- 기존 Bi-Encoder 방식과 비교해, 질문과 응답을 통합적으로 처리하므로 더 깊은 상호작용 정보를 학습할 수 있습니다.
- Cross-Encoder 방식:
- 학습 목표:
- Cross-Entropy Loss를 사용해, 올바른 응답에 대해 높은 점수를 부여하도록 학습합니다.
- 올바르지 않은 응답은 낮은 점수를 받도록 조정합니다.
이 모델의 특징
- 다양한 에이전트의 출력 통합:
- 여러 에이전트(예: Alexa, Google Assistant)가 동일한 질문에 대해 생성한 응답을 평가합니다.
- 단일 에이전트의 한계를 극복하고, 응답의 품질을 향상시킵니다.
- 상호작용 학습:
- Cross-Encoder는 질문과 응답 간의 문맥적 관계를 학습하므로, 단순히 문장의 유사도를 계산하는 방법보다 정확도가 높습니다.
- 확장성:
- 새로운 에이전트를 추가해도, 시스템 성능이 감소하지 않고 오히려 향상될 가능성이 있습니다. 이는 추가된 에이전트가 제공하는 새로운 응답 후보군이 모델 선택의 다양성을 넓히기 때문입니다.
요약하면:
이 논문에서 제안한 MARS 모델은 질문과 응답 간의 적합도를 학습하는 다중 분류 모델입니다. 여러 에이전트의 응답을 비교해 가장 적합한 하나를 선택하는 과정을 통해 사용자 경험의 단순화와 응답 품질 향상을 목표로 하고 있습니다.
Multi Agent 끼리 소통은 없고 결국 응답 한 개만 골라낸 다는 점에서 많이 아쉽네.
현재와 같은 거대 언어 모델이 아니라서 생기는 문제점이겠지?
네, 정확히 지적하셨습니다! 현재 논문에서 제안된 시스템은 여러 에이전트의 응답 중 하나를 선택하는 방식(응답 선택 문제)에 초점이 맞춰져 있습니다. Multi-Agent 간의 소통이나 협력은 전혀 이루어지지 않으며, 이는 몇 가지 한계로 이어집니다.
한계점 분석
- Multi-Agent 협력 부재:
- 각 에이전트는 서로 독립적으로 작동하며, 공유된 맥락이나 상호작용 없이 개별적인 응답만 생성합니다.
- 여러 에이전트가 개별적으로 처리하고 끝나기 때문에, 복잡한 질의나 다중 도메인 연결 문제를 효율적으로 해결하지 못할 가능성이 큽니다.
- 단일 응답의 선택:
- 최종적으로 가장 적합한 하나의 응답만 선택하기 때문에, 부분적으로 유용한 정보를 제공하는 다른 응답들이 활용되지 못합니다.
- 예를 들어, A 에이전트가 "날씨" 정보를 잘 알고, B 에이전트가 "위치 정보"를 잘 알 때, 두 정보를 통합하여 사용자에게 완전한 답을 제공하지 못합니다.
- 거대 언어 모델의 부재:
- 현재 시스템은 에이전트의 응답을 평가하고 선택하는 데 초점을 두고 있으며, 자체적으로 풍부한 지식을 가진 모델이 아닙니다.
- 최근의 거대 언어 모델(LLMs)과 달리, 여러 도메인 간의 맥락을 연결하거나 추론 능력을 발휘하지 못합니다.
- 에이전트 간 소통의 부재로 인해 대화의 깊이 부족:
- 에이전트들이 서로의 응답이나 상태를 공유할 수 있다면 더 나은 다중 턴 대화나 사용자 경험을 제공할 수 있습니다.
- 예: 한 에이전트가 음식점을 추천하고, 다른 에이전트가 해당 음식점의 예약 상태를 제공하는 협력적인 흐름이 불가능합니다.
한계의 원인: 거대 언어 모델의 부재
현재의 문제점은 주로 에이전트 통합의 초점이 협력보다 분리된 독립적인 작업에 맞춰진 구조 때문입니다. 이는 현재의 **거대 언어 모델(LLMs)**과는 큰 차이를 보입니다:
- LLMs의 강점:
- 거대 언어 모델은 단일 모델 내에서 다중 도메인의 지식과 맥락을 이해하고 통합합니다.
- 여러 소스의 정보를 통합하고 추론하는 능력이 탁월합니다.
- 현재 논문의 제한:
- 개별 에이전트의 응답을 단순히 선택하고 정렬하는 방식은 LLMs처럼 하나의 모델에서 통합된 지식 체계를 활용하지 못합니다.
- 예를 들어, ChatGPT와 같은 모델은 사용자의 맥락과 의도를 유지하며, 다중 도메인 문제를 하나의 대화 흐름에서 자연스럽게 해결합니다.
개선 가능성
미래 Multi-Agent 시스템은 다음과 같은 방식으로 확장될 수 있습니다:
- Multi-Agent 협력:
- 에이전트들 간의 정보 교환과 협력을 가능하게 설계하여, 다중 도메인 연결 문제를 해결할 수 있습니다.
- 예: A 에이전트가 사용자의 건강 데이터를 분석하고, 이를 B 에이전트가 추천하는 운동 계획에 반영.
- 거대 언어 모델의 도입:
- LLM을 기반으로 여러 에이전트의 출력을 통합하거나, 심지어 에이전트 자체를 LLM 기반으로 통합하여, 개별 에이전트의 의존성을 줄이고 통합된 경험을 제공합니다.
- 하이브리드 방식:
- LLM과 개별 에이전트의 협력을 통해, LLM이 복잡한 추론과 통합 역할을 하고, 전문 에이전트들이 세부적인 작업을 수행하는 구조를 제안할 수 있습니다.
결론
현재 시스템은 독립적인 Multi-Agent 구조에서 출발했기 때문에 응답 선택 이상의 협력이 부족합니다. 이는 거대 언어 모델을 활용하지 못한 점이 큰 원인입니다. LLM을 중심으로 한 새로운 Multi-Agent 시스템 설계를 통해, 개별 에이전트의 전문성과 LLM의 통합 능력을 결합한 하이브리드 시스템이 미래 지향적인 방향이 될 것입니다.
그럼 현재의 LLM을 통해서 이 논문을 발전시키면 어떤 내용으로 변할까?
현재의 거대 언어 모델(LLMs)을 기반으로 이 논문의 아이디어를 발전시킨다면, 단순히 여러 에이전트의 응답 중 하나를 선택하는 구조에서 벗어나, 더 깊은 협력과 통합을 지원하는 Multi-Agent 시스템으로 발전할 수 있습니다. 다음은 LLM을 활용해 이 논문의 연구를 발전시키는 구체적인 방안들입니다:
1. Multi-Agent 간의 협력 구조 추가
기존의 문제
- 각 에이전트가 독립적으로 작동하고, 최종적으로 하나의 응답만 선택됨.
- 에이전트 간의 정보 교환이나 상호 보완적 협력이 없음.
개선 방안
- LLM을 허브로 사용: LLM이 "중앙 조정자" 역할을 수행하여, 각 에이전트의 출력을 분석하고, 필요한 경우 특정 에이전트 간의 협력을 유도.
- 예: 날씨 정보를 제공하는 에이전트와 교통 정보를 제공하는 에이전트를 연결하여, 사용자의 여행 계획을 종합적으로 제안.
- 지식 공유 시스템 구축: LLM을 통해 에이전트 간에 대화의 맥락, 사용자 의도, 상태 정보를 실시간으로 공유.
- 이를 통해 다중 턴 대화나 복합적인 질의 처리가 가능.
2. 응답 통합 및 강화
기존의 문제
- 다중 에이전트의 응답 중 하나만 선택하여, 다른 응답의 유용한 정보가 낭비됨.
개선 방안
- 응답 합성(Response Synthesis):
- LLM이 다중 에이전트의 응답을 종합적으로 분석해 최적의 종합 응답을 생성.
- 예: 날씨, 위치, 음식점 정보를 각각 다른 에이전트에서 받아 이를 바탕으로 "현재 날씨가 좋으니 추천 장소에서 식사를 즐기세요" 같은 통합된 응답 제공.
- 다중 응답 시나리오 지원:
- 필요 시 여러 응답을 순차적으로 제공하거나, 사용자에게 선택권을 부여.
- 예: "Google Assistant와 Alexa 모두 이 질문에 답변할 수 있습니다. 어떤 에이전트의 응답을 듣고 싶으신가요?"
3. 에이전트 대체 또는 강화
기존의 문제
- 독립적인 에이전트들이 각자 하나의 특정 도메인에만 특화되어 있고, 성능 한계가 있음.
개선 방안
- LLM이 전문 에이전트를 대체:
- LLM 자체가 다중 도메인 지식을 보유하고 있으므로, 특정 도메인(날씨, 교통, 추천 등)에 대해 직접적인 응답을 생성.
- 기존 에이전트는 데이터 소스 역할만 수행.
- LLM과 에이전트의 하이브리드 협력:
- LLM이 추론 및 응답을 생성하는 동안, 전문 에이전트가 도메인 특화 정보를 제공해 정밀도를 보완.
- 예: LLM이 "이 지역에서 가장 인기 있는 음식점 추천"이라는 사용자 요청을 처리하면서, Yelp API 기반 에이전트가 음식점 정보를 제공.
4. 개인화 및 학습
기존의 문제
- 사용자 맥락이나 선호도를 반영하지 않으며, 각 사용자에 대한 개인화된 서비스가 없음.
개선 방안
- LLM 기반 개인화:
- LLM이 사용자와의 이전 대화 기록을 학습하고, 사용자의 선호도를 기억해 대화에 반영.
- 예: 사용자가 이전 대화에서 이탈리아 음식을 좋아한다고 했으면, 다음 음식점 추천에서 이탈리아 레스토랑을 우선 추천.
- 실시간 학습:
- LLM과 에이전트가 사용자와의 대화를 통해 지속적으로 학습하여, 점점 더 정교하고 맞춤화된 응답 제공.
5. 복합 질의 처리
기존의 문제
- 복잡한 질문(예: 다중 도메인 연결 질문)에 대해 제한적 처리.
개선 방안
- LLM 기반 추론:
- LLM의 강력한 추론 능력을 활용해, 복잡한 질문(예: "오늘 서울 날씨가 좋은데, 한강 근처에서 자전거를 대여할 수 있는 곳은?")에 대해 다중 도메인을 연결하는 응답 생성.
- 멀티스텝 처리:
- LLM이 문제를 여러 단계로 나누고, 각 단계에서 특정 에이전트에 작업을 분배한 후 결과를 통합.
6. 실시간 협력 시스템 구현
기존의 문제
- 모든 에이전트의 응답을 기다린 후에야 최적의 응답을 선택하므로, 지연(latency) 문제가 있음.
개선 방안
- 비동기적 처리:
- LLM이 에이전트의 응답을 비동기로 처리하고, 도착 순서에 따라 즉시 분석 및 통합.
- 최적화된 질의 분배:
- LLM이 질문을 분석해 특정 에이전트에게만 질의를 분배, 불필요한 요청 감소.
- 예: "서울 날씨" 질문은 날씨 에이전트에게만 전달.
7. 미래 연구 방향
- 에이전트 간 지식 그래프 통합:
- 각 에이전트의 지식을 LLM 기반의 통합 지식 그래프로 구축, 필요 시 자동으로 지식을 연결.
- 멀티턴 대화:
- 사용자의 맥락을 유지하며 여러 에이전트가 대화 흐름에 참여하도록 설계.
- 대화의 설명 가능성(Explainability):
- LLM이 최종 응답을 생성하는 이유를 사용자에게 설명하는 기능 추가.
최종적으로:
LLM을 활용하면 이 논문의 접근 방식은 기존의 단순 응답 선택 시스템에서 벗어나 협력적이고 통합적인 Multi-Agent 시스템으로 발전할 수 있습니다. 이는 사용자 경험을 크게 개선하고, 복잡한 문제를 해결할 수 있는 AI 에이전트 생태계를 만들어갈 수 있는 방향입니다.
작성한 글은 논문의 개요를 간략히 요약한 형태로 적절하지만, 몇 가지 추가와 수정으로 내용을 더 명확히 하고 논문의 기여를 정확히 반영할 수 있습니다. 아래는 수정 및 추가된 버전입니다:
이 논문은 비교적 오래된 접근법을 제안한 논문입니다.
현재의 GPT-3, GPT-4와 같은 모든 도메인에 대해 높은 성능을 발휘하는 거대 언어 모델(LLM)이 보편화되기 전, 이 논문에서는 각 도메인에 특화된 모델(예: 날씨, 교통, 음식 추천)을 여러 개 사용하여 문제를 해결하려고 했습니다. 이를 위해, 여러 에이전트가 생성한 응답 중 가장 적합한 응답을 선택하는 인코더 모델을 개발하여 최종적으로 사용자가 하나의 응답만 받을 수 있도록 설계했습니다.
이 접근 방식은 현재와 같이 하나의 LLM을 통해 다양한 도메인 문제를 통합적으로 해결할 수 있는 환경이 갖춰지기 전, 개별 모델의 특화된 강점을 활용하여 다중 도메인의 문제를 해결하려는 시도를 보여줍니다. 당시의 기술적 제한을 극복하기 위해 다중 모델을 활용한 협력적 접근이 필요했던 점에서 그 의미를 찾을 수 있습니다.
현재는 GPT-4와 같은 단일 모델로 대부분의 문제를 처리할 수 있으므로, 다중 모델 기반의 이런 접근이 더 이상 일반적이지는 않습니다. 하지만 이 논문은 다중 모델 통합 문제에서 효율성과 확장성을 높이기 위해 제안된 Multi-Agent Response Selection(MARS) 모델과 같은 중요한 기여를 했습니다.
추가된 내용
- 다중 모델 기반 접근의 맥락:
- GPT-3/4가 등장하기 이전 환경에서 왜 다중 모델 접근이 필요했는지 설명을 추가했습니다.
- 논문의 기여 명시:
- 단순히 "가장 좋은 응답만을 선택한다"라는 것을 넘어, 당시 기술적 환경에서 다중 모델 통합의 효율성과 확장성을 높이기 위한 연구라는 점을 강조했습니다.
- 현시점과의 비교:
- 현재의 LLM 환경에서 이 논문의 접근 방식이 왜 덜 사용되게 되었는지 명확히 설명했습니다.