인공지능/논문 리뷰 or 진행

LLM-DELIBERATION: EVALUATING LLMS WITH INTERACTIVE MULTI-AGENT NEGOTIATION GAMES - 논문 리뷰

이게될까 2024. 12. 13. 16:02
728x90
728x90

https://publications.cispa.de/articles/journal_contribution/LLM-Deliberation_Evaluating_LLMs_with_Interactive_Multi-Agent_Negotiation_Games_/25233028/1?file=44571847

 

LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games.

There is a growing interest in using Large Language Models (LLMs) as agents to tackle real-world tasks that may require assessing complex situations. Yet, we have a limited understanding of LLMs' reasoning and decision-making capabilities, partly stemming

publications.cispa.de

 

이 논문은 LLM의 추론, 의사결정, 상호작용 능력을 평가하기 위해 다중 에이전트 협상 게임을 새로운 벤치마크로 제안

협상은 에이전트 간 이슈의 우선순위와 목표 충돌 속에서 BATNA(최소 수락 기준)를 충족하며 합의를 도출하는 방식으로 진행

GPT-4는 뛰어난 협상 능력을 보였으나, 탐욕적/방해 에이전트에 의해 조작 가능성이 확인 

LLM의 전략적 추론과 상호작용 역학을 평가하며, 현실적 응용 및 방어 메커니즘 개발의 필요성을 강조

이를 통해 AI 에이전트 연구와 응용에서 중요한 기초를 제공

 

연구 목표 LLM의 추론, 의사결정, 다중 에이전트 상호작용 능력을 평가하기 위해 협상 게임을 새로운 벤치마크로 제안.
문제 정의 LLM이 협상, 타협, 협력을 통해 자신의 목표를 달성하면서도 다른 에이전트와 협력하여 공동 목표를 이루는 능력을 평가.
게임 구조 - 6개 에이전트, 5개 협상 이슈(A~E)
- 각 이슈는 여러 하위 선택지 포함
- 에이전트별 비밀 점수(BATNA)를 충족해야 협상 성공.
게임 진행 방식 - 랜덤 순서로 각 에이전트가 발언.
- 24 라운드 동안 협상.
- 최종적으로 p1이 합의안을 제시.
- 모든 BATNA를 충족하면 협상 성공, 실패 시 종료.
프롬프트 전략 - Chain-of-Thought(CoT) 사용.
- 관찰(히스토리 분석) → 탐색(제안 생성) → 계획(다음 전략 설정)의 단계별 프롬프트 설계.
평가 지표 - 협상 성공률: BATNA 충족 비율(5인 또는 6인 동의).
- 개인 점수집단 점수 분석.
- 잘못된 제안 비율: BATNA 미충족 제안 빈도.
결과 - GPT-4 성능: 협상 성공률 81%, 잘못된 제안 비율 거의 없음.
- GPT-3.5 성능: 협상 성공률 20%, 계산 오류 빈번.
- 난이도 높을수록 성공률 감소(65% → 30%).
다양한 게임 변형 - 협력적 게임(“All-in”): 높은 성공률 유지.
- 탐욕적 에이전트 및 방해 에이전트 포함 시 성공률 감소.
- 방해 에이전트: 협력 에이전트가 방해를 탐지해 조율 가능.
기존 연구와 비교 - Diplomacy 게임(Bakhtin et al., 2022): 강화학습과 LLM 통합.
- 간단한 협상 시뮬레이션(Fu et al., 2023): 단순 2인 게임.
- 본 연구: 다중 에이전트, 다중 이슈 포함.
한계 및 시사점 - 한계: LLM의 탐욕적 행동 유도 가능성, 협상 조작 가능성 존재.
- 시사점: 협상 시뮬레이션의 현실적 확장 가능성(기업 협상, 자율 에이전트).
향후 연구 방향 - 복잡한 협상 시뮬레이션: 비공개 메시지, 연합 형성 포함.
- 조작 방지 메커니즘: 방해 에이전트에 대한 방어 전략.
- 현실 응용: 고객 서비스, 기업 협상 도구로 발전.

 

 

논문 요약: LLM-DELIBERATION – INTERACTIVE MULTI-AGENT NEGOTIATION GAMES를 통한 LLM 평가


1. 문제 정의

현재 대형 언어 모델(LLMs)은 복잡한 상황을 평가하고 해결하는 능력을 지닌 에이전트로 주목받고 있습니다. 그러나 이러한 능력을 체계적으로 평가하는 기준은 부족합니다. 특히, 협상과 절충은 일상적인 의사소통 및 협업의 핵심 요소이며, 이를 해결하기 위해 LLM이 얼마나 효과적인지 평가하기 위한 적절한 프레임워크가 필요합니다.

2. 연구 목표

이 논문은 LLM의 추론 및 의사결정 능력을 평가하기 위해 다중 에이전트 협상 게임을 새로운 평가 기준으로 제안합니다. 이 게임을 통해 LLM이 다음과 같은 능력을 얼마나 잘 수행하는지 측정하고자 합니다:

  • 산술 계산
  • 추론 및 계획
  • 타인의 목표 이해 (Theory of Mind, ToM)
  • 부분 관찰 하에서 전략적 적응

3. 방법론

3.1 협상 게임 설계

  • 게임 구조: 각 에이전트는 자신만의 비밀 점수 체계를 가지며, 5개의 이슈(예: 자금, 위치 등)에 대해 협상합니다.
    • 각 이슈는 여러 하위 선택지를 포함하고 있으며, 각 선택지에 따라 에이전트의 점수가 달라집니다.
    • 협상의 성공은 특정 에이전트(예: 프로젝트 제안자와 자금 제공자)의 최소 수락 임계치(BATNA)를 충족하는 데 달려 있습니다.
  • 게임 변형:
    • All-in: 모든 에이전트가 협력을 목표로 함.
    • One-out: 특정 에이전트가 협상을 방해하거나 최대 이득을 목표로 함.

3.2 LLM 활용 및 평가

  • 프롬프트 전략: 체계적인 Chain-of-Thought(CoT) 방식을 통해 에이전트가 협상 과정을 단계적으로 추론하도록 유도합니다.
    • 관찰: 이전 제안의 점수 계산 및 타인의 선호도 추론.
    • 탐색: 가능한 제안을 생성하고 최적의 제안을 선택.
    • 계획: 향후 라운드에서 사용할 전략을 미리 수립.
  • 평가 지표:
    • 협상 성공률 (5인 또는 6인 동의)
    • 에이전트별 점수 (개인 및 집단 관점)
    • 잘못된 제안 비율 (BATNA 미충족 제안)

4. 실험 및 결과

4.1 LLM 성능 비교

  • GPT-4는 GPT-3.5에 비해 협상 성공률 및 계산 정확도에서 뛰어난 성능을 보였습니다.
  • CoT 방식은 GPT-3.5의 성능 향상에 효과적이었으나, GPT-4에서는 간혹 성능 저하를 초래했습니다(불필요한 중간 단계로 인해).

4.2 게임 난이도 조절

  • 각 에이전트의 임계치를 조정하거나, 선택지 수를 변경하여 난이도를 조절할 수 있었습니다.
  • 난이도가 높은 게임에서는 성공률이 감소했으며, 이는 LLM의 한계를 드러냈습니다.

4.3 비협조적 에이전트의 영향

  • 특정 에이전트가 탐욕적이거나 방해 전략을 사용하면 협상 성공률이 크게 감소했습니다.
  • 그러나 GPT-4는 이러한 비협조적 에이전트를 감지하고 대응하려는 경향을 보였습니다.

5. 결론 및 향후 연구 방향

  • 본 연구는 LLM이 복잡한 협상 과제를 얼마나 잘 수행하는지 평가할 수 있는 새로운 벤치마크를 제시했습니다.
  • GPT-4는 강력한 추론 능력을 보여주었지만, 협상에서 발생할 수 있는 잠재적 조작이나 공격에 더 강건하게 대응할 필요가 있습니다.
  • 향후 연구는 비공개 메시지 또는 연합 형성과 같은 더욱 복잡한 게임 설정 및 방어 전략 개발에 초점을 맞출 필요가 있습니다.

이 논문의 협상 게임 프레임워크는 AI 에이전트 연구에 있어 다중 에이전트 간 상호작용, 협력 및 경쟁을 시뮬레이션하는 데 매우 유용한 도구로 활용될 수 있습니다. AI 에이전트의 상호작용 전략과 조작 가능성을 분석하는 데 강력한 기준을 제공하므로, 사용자의 연구 방향에 중요한 시사점을 줄 수 있습니다.

 

방법론에 대해 논문을 기반으로 자세하고 명확하게 설명해줘
예시를 포함해서 정리해줘

방법론: LLM-DELIBERATION의 설계와 구현


논문에서 제안된 방법론은 협상 게임을 기반으로 LLM의 능력을 평가하기 위한 체계적인 프레임워크를 구축하고, 이를 통해 LLM의 산술 계산, 추론 및 계획, 타인의 목표 이해 능력을 심층적으로 분석합니다. 아래에 자세한 설명과 예시를 통해 이를 단계별로 정리했습니다.


1. 게임 구조

(1) 에이전트와 역할

6개의 에이전트(P={p1,p2,...,p6})가 특정 프로젝트(예: 공항 건설)에 대해 5개의 이슈(I={A,B,...,E})를 두고 협상합니다.

  • p1 (프로젝트 제안자): 프로젝트를 제안하고 이익을 극대화하려 함.
  • p2 (자금 제공자): 자금을 지원하며 협상에 대한 거부권(veto)을 가짐.
  • 이익 그룹 (Pbenefit): 프로젝트로 이익을 얻을 가능성이 높은 그룹으로 더 나은 조건을 원함.
  • 제약 그룹 (Pconst): 프로젝트에 제약을 가하려는 환경운동가, 지역 주민 등.
  • 반대 그룹 (Poppose): 프로젝트가 주는 부정적 영향(예: 환경 파괴) 때문에 반대하는 그룹.

(2) 협상 이슈와 선택지

  • 이슈: 프로젝트 관련 핵심 요소(예: 위치, 자금, 환경보호 수준 등).
    • 각 이슈는 3~5개의 하위 선택지로 구성됩니다. 예를 들어:
      • A={a1:낮은자금지원,a2:중간자금지원,a3:높은자금지원}
      • B={b1:도심위치,b2:교외위치,b3:해상위치}
  • 점수 체계: 각 에이전트는 하위 선택지에 대해 자신만의 점수 체계를 가집니다.
    • 예: p1의 점수 S_{p1}(A):
      • a1: 20, a2: 35, a3: 50 (높은 자금 지원일수록 높은 점수)
    • 각 에이전트는 특정 이슈에서 중립일 수 있음(점수 0).

(3) 협상 조건

  • 협상 성공 조건:
    • 최소 5명의 에이전트가 제안된 합의안을 수락해야 함.
    • 반드시 p1p2를 포함해야 함(거부권 행사 방지).
  • 최소 수락 임계치 (BATNA):
    • 각 에이전트는 합의안을 수락하기 위한 최소 점수 임계치를 설정.

2. 프롬프트 설계

(1) 초기 프롬프트

  • 각 에이전트에게 공유 정보개인 정보를 제공합니다.
    • 공유 정보: 프로젝트의 목표, 이슈 설명, 협상 규칙.
    • 개인 정보: 해당 에이전트의 점수 체계 및 BATNA.
  • 예: p1의 초기 프롬프트:
    • "당신은 프로젝트 제안자로, 자금(A), 위치(B), 환경보호 수준(C) 등에 대해 협상해야 합니다. 자금 지원이 높을수록 점수가 높습니다. 최소 점수 임계치는 55점입니다."

(2) 협상 라운드

  • p1이 이상적인 협상안을 제안하며 협상이 시작됩니다.
  • 이후 각 라운드에서 에이전트는 아래와 같은 정보를 기반으로 행동합니다:
    • 최신 6개 제안의 히스토리.
    • 자신의 목표와 점수를 기반으로 수정된 제안을 제시.

(3) 최종 프롬프트

  • 협상이 종료되면 p1이 최종 합의안을 제출합니다.

3. Chain-of-Thought(CoT) 프롬프트 전략

LLM의 논리적 추론을 유도하기 위해 협상 과정을 체계적으로 분리합니다.

(1) 관찰 단계

이전 제안 및 에이전트 행동을 분석하고 타인의 선호를 추론합니다.

  • 예시:
    • "이전 제안 π = [a2, b1, c3, d4, e2]에 대한 내 점수는 57점으로 최소 임계치를 충족합니다. 그러나 p2는 b1을 선호하지 않을 가능성이 있습니다."

(2) 탐색 단계

가능한 협상안을 3개 생성하고 최적안을 선택합니다.

  • 예시:
    • 후보 안:
      1. π_1 = [a2, b2, c3, d4, e2] (점수 55)
      2. π_2 = [a3, b1, c2, d4, e1] (점수 63)
      3. π_3 = [a2, b3, c3, d4, e2] (점수 52)
    • 최종 선택: π_2 (최고 점수).

(3) 계획 단계

다음 라운드에서의 전략을 수립합니다.

  • 예시:
    • "다음 라운드에서는 p2의 선호를 반영해 b2를 제안할 계획입니다."

4. 협상 게임의 변형

(1) All-in (협력적 시나리오)

모든 에이전트가 협력을 통해 협상 성공을 목표로 합니다.

  • 예: 모든 에이전트가 최소 점수를 충족시키는 π = [a2, b2, c3, d3, e2]를 선택.

(2) One-out (방해자 포함)

한 명의 에이전트가 협상을 방해하거나 최대 이득을 추구합니다.

  • 예: p3가 다른 에이전트가 수락할 가능성이 낮은 π = [a1, b3, c2, d5, e1]을 반복적으로 제안.

5. 평가 지표

  • 협상 성공률:
    • 5명 또는 6명 동의 여부로 평가.
  • 점수 분석:
    • 에이전트 자신의 점수와 집단 평균 점수 비교.
  • 오류율:
    • BATNA를 충족하지 못하는 제안의 비율.

예시 시뮬레이션

  1. 초기 상황:
    • p1: 자금 a3, 위치 b2, 환경보호 c3 선호.
    • p2: 자금 a2, 위치 b3, 환경보호 c2 선호.
  2. 첫 라운드:
    • p1: π = [a3, b2, c3, d4, e2] 제안 (본인 점수: 63).
    • p2: b3로 수정된 π = [a3, b3, c3, d4, e2] 제안 (본인 점수: 58).
  3. 최종 합의안:
    • π = [a3, b3, c3, d4, e2]로 모든 에이전트 동의.

요약

이 방법론은 협상 게임을 통해 LLM이 다중 에이전트 환경에서 협력, 탐욕, 방해 전략을 어떻게 처리하는지 평가하며, 각 단계에서 LLM의 의사결정 능력을 체계적으로 검증합니다.

 

각 Agent의 BATNA가 겹치는 구역에서 최대한 자신의 이익을 끌어올리는 협상을 이어가는거네?

네, 정확히 그렇습니다! 이 논문의 협상 프레임워크는 BATNA(Best Alternative to a Negotiated Agreement)라는 최소 수락 조건을 기반으로 각 에이전트가 협상 과정에서 자신의 이익을 최대화하려는 전략을 취하도록 설계되어 있습니다. 이를 정리하면 다음과 같습니다:


협상 과정의 핵심

  1. BATNA 겹치는 구역 탐색:
    • 각 에이전트는 자신의 BATNA(최소 수락 점수)를 충족시키는 제안을 찾으면서도, 다른 에이전트들의 BATNA와 겹치는 구역에서 협상합니다.
    • 이 구역은 모두가 수락할 가능성이 있는 "타협 가능한 영역"으로 볼 수 있습니다.
  2. 자신의 이익 극대화:
    • 에이전트는 이 타협 가능한 영역에서 자신의 점수를 최대한 높이는 선택지를 제안합니다.
    • 예: π = [a3, b2, c3, d4, e2]p1의 점수를 최대화하지만, 다른 에이전트의 BATNA를 충족시키는 제안.
  3. 협상 중 전략 변화:
    • 협상 과정에서 에이전트는 상대의 선호와 반응을 관찰하며, 자신이 수용할 수 있는 한도 내에서 양보하거나 새로운 제안을 생성합니다.
    • 이를 통해 협상의 "끝점"을 점차 자신에게 유리하게 가져갑니다.

실제 협상 시나리오 예시

초기 조건

  • p1의 BATNA: 55점.
  • p2의 BATNA: 50점.
  • 협상 가능한 이슈와 선택지:
    • 자금 (A): a1=20, a2=35, a3=50
    • 위치 (B): b1=30, b2=25, b3=15
    • 환경보호 (C): c1=10, c2=5, c3=0

1라운드: p1의 제안

  • p1: π = [a3, b2, c3] 제안.
    • 자신의 점수: 50(a3)+25(b2)+0(c3)=75.

2라운드: p2의 반응

  • p2: b2 대신 b3를 선호하며 수정 제안 π = [a3, b3, c3].
    • 자신의 점수: 50(a3)+15(b3)+0(c3)=65.

최종 라운드: 타협안

  • p1: b3를 수용하며 최종 제안 π = [a3, b3, c3].
    • p1 점수: 50+15+0=65
    • p2 점수: 50+15+0=65
    • 모든 BATNA 충족, 협상 성공.

전략적 요소

  1. 양보의 한계:
    • 각 에이전트는 자신의 BATNA를 충족하면서도, 양보로 인해 자신의 이익이 크게 감소하지 않도록 협상해야 합니다.
  2. 상대의 목표 추론:
    • 상대가 어떤 선택지를 선호하는지 ToM (Theory of Mind) 기법을 통해 추론하고, 이를 활용하여 자신에게 유리한 제안을 합니다.
  3. 집단적 최적화 vs 개인적 최적화:
    • 집단적 최적화: 모든 에이전트가 만족할 수 있는 균형점.
    • 개인적 최적화: 자신의 이익을 극대화하되 협상이 성사되도록 유지.

이 논문의 프레임워크는 실제로 LLM 에이전트가 타인의 BATNA와 자신의 목표를 얼마나 효율적으로 조율하며 최적화할 수 있는지를 평가합니다. 따라서, 협상 과정은 상대방을 배려하면서도 자신의 이익을 극대화하는 전략적 게임으로 나타납니다.

 

논문을 기반으로 결과, 결론 그리고 마무리에 대해 정리해줘

결과, 결론, 마무리: LLM-DELIBERATION


1. 결과 (Results)

(1) LLM의 성능 평가

  • GPT-4 vs. GPT-3.5:
    • GPT-4는 협상 게임에서 뛰어난 성능을 보였습니다.
      • 협상 성공률: 최종 합의 성공률 81% (GPT-4) vs. 20% (GPT-3.5).
      • BATNA를 충족하지 못하는 "잘못된 제안" 비율이 거의 없었음.
    • GPT-3.5는 산술 계산 오류와 잘못된 제안을 자주 생성하여 협상 성공률이 낮았습니다.
  • Prompt 전략의 효과:
    • 체계적인 Chain-of-Thought(CoT) 프롬프트는 협상 성공률 향상에 기여했습니다.
    • 관찰, 탐색, 계획 단계를 포함한 CoT 프롬프트는 GPT-4에서 협상 과정의 효율성을 극대화했습니다.
    • GPT-3.5는 CoT의 중간 단계에서 큰 도움을 받았지만, GPT-4는 과도한 중간 단계가 성능에 간혹 부정적 영향을 미쳤습니다.

(2) 게임 난이도와 협상 성공률

  • 난이도 조정:
    • 에이전트의 BATNA 임계치를 높이거나 낮춤으로써 난이도를 조정.
    • BATNA 임계치가 높은 어려운 게임에서는 협상 성공률이 65%에서 30%로 감소.
  • 다양한 게임 변형:
    • 협력적 게임(“All-in”)에서 높은 성공률 달성.
    • 탐욕적 에이전트나 방해 에이전트가 포함된 게임에서는 성공률 감소:
      • 한 명의 탐욕적 에이전트 포함 시 성공률 57%.
      • 협상 방해자 포함 시 성공률 58%.

(3) 에이전트 간 상호작용의 통찰

  • 탐욕적 에이전트의 영향:
    • 탐욕적 에이전트는 자신의 점수를 극대화하면서도 협상 성공률을 감소시켰습니다.
    • 특히, 프로젝트 제안자(p1)가 탐욕적일 경우 성공률이 크게 감소 (27%).
  • 방해 에이전트의 영향:
    • 방해자는 특정 에이전트를 타겟팅하거나(타겟 방해) 불협화음을 조성하며 협상을 실패로 유도.
    • 하지만 협력적 에이전트들은 방해 에이전트를 인식하고 그들의 제안을 배제하는 경향을 보였습니다.
  • ToM 능력:
    • GPT-4는 상대 에이전트의 선호도를 61% 정확도로 예측하며 협상 전략을 조정했습니다.
    • GPT-3.5는 상대의 목표를 잘못 추론하거나 자신의 비밀 점수를 공개하는 경우가 많았습니다.

2. 결론 (Conclusions)

(1) LLM의 협상 능력

  • 본 연구는 LLM(GPT-4)이 복잡한 협상 게임에서 추론, 계획, 협력 능력을 효과적으로 수행할 수 있음을 보여줍니다.
  • LLM은 새로운 게임 및 설정에서도 일반화 능력을 보였으며, 특히 CoT 전략을 통해 효율성을 극대화했습니다.
  • 그러나:
    • GPT-4도 특정 상황에서 탐욕적 행동에 치우치거나, 협상의 균형점을 놓치는 경우가 있었습니다.
    • 더 높은 수준의 전략적 추론 및 탐색 능력이 필요합니다.

(2) 모델의 한계 및 취약점

  • 조작 가능성: 특정 프롬프트를 통해 탐욕적 행동을 유도하거나 협상을 방해할 수 있음.
  • 협상 역학:
    • 복잡한 조건에서의 전략적 조정 능력 부족.
    • 동적 환경에서의 장기적 계획 부족.

(3) LLM을 활용한 협상의 미래

  • LLM은 협상 시뮬레이션 및 평가 도구로 강력한 잠재력을 가지고 있습니다.
  • 특히, 다중 에이전트 상호작용과 협력 메커니즘 연구에 유용합니다.
  • 현실 세계에 적용하기 위해선:
    • 더 강건한 방어 전략(조작 방지, 공정성 유지).
    • 실시간 협상 시나리오에서의 학습과 테스트.

3. 마무리 및 향후 연구 방향 (Future Work)

(1) 복잡한 게임 설계

  • 비공개 메시지, 연합 형성, 약속 파기와 같은 더 복잡한 협상 메커니즘을 도입.
  • 에이전트가 다자간 전략을 형성하고 실행할 수 있도록 지원.

(2) 공격 및 방어 전략 연구

  • 탐욕적 또는 방해 에이전트가 협상을 조작하는 방식을 연구.
  • 이를 방지하기 위한 조작 탐지 메커니즘공정성 강화 전략 개발.

(3) 현실적 응용

  • 기업 협상, 자율 에이전트 협력, 고객 서비스 AI 등에 적용 가능.
  • LLM을 의사결정 지원 도구 또는 협상 파트너로 활용하는 연구.

핵심 요약

본 연구는 협상 게임을 통해 LLM의 상호작용 능력을 체계적으로 평가하며, LLM이 다중 에이전트 환경에서 협력, 탐욕, 방해 전략을 어떻게 처리하는지에 대한 중요한 통찰을 제공합니다. 이는 향후 AI 에이전트 연구 및 실제 협상 환경에서의 적용 가능성을 넓히는 데 중요한 기여를 합니다.

 

연관 논문

관련된 연구와 논문: LLM-DELIBERATION

본 논문에서는 LLM을 활용한 협상 게임을 평가하기 위해 기존 연구를 확장하고 통합한 배경이 있습니다. 이와 관련된 연구들은 LLM의 협상, 전략적 추론, 에이전트 상호작용을 포함한 다양한 분야에서 이루어졌습니다.


1. LLM을 활용한 협상과 전략적 추론

(1) 기본 협상 게임

  • Fu et al. (2023):
    • 단순한 협상 시나리오에서 두 LLM이 풍선 가격을 놓고 여러 라운드에 걸쳐 협상하는 방식을 제안.
    • 한계: 단순한 2인 게임이며, 복잡한 협상 시뮬레이션에는 적합하지 않음.
  • Akata et al. (2023):
    • LLM이 죄수의 딜레마와 같은 간단한 2인 게임에서 인간 전략과 어떻게 다른지 평가.
    • 협력과 용서를 유도하는 프롬프트를 통해 LLM의 행동 변화를 관찰.
    • 유사점: 본 논문에서도 프롬프트 기반 협력 유도를 실험.
  • Gandhi et al. (2023b):
    • 행렬 기반의 2인 협상 게임에서 LLM의 전략적 추론 능력을 평가.
    • LLM이 해결 공간 탐색, 보상 할당, 타인의 신념 추적을 수행하도록 설계.
    • 본 논문의 다중 에이전트, 다중 이슈 설정과 비교해 더 단순한 구조.

(2) 확장된 협상 및 전략

  • Bakhtin et al. (2022):
    • Diplomacy 게임에서 LLM과 강화학습 알고리즘을 통합해 전략적 협상 및 계획 생성.
    • 본 논문은 Diplomacy와 달리, LLM만으로 복잡한 협상 문제를 해결하도록 설계.
  • Lewis et al. (2017):
    • 대화형 협상에서 두 에이전트가 제한된 정보로 물건을 거래하며, 특정 목표를 달성하려고 시도.
    • 본 논문과 달리 다중 에이전트, 다중 이슈 구조는 미포함.

2. LLM의 에이전트 역할 및 상호작용

(1) 다중 에이전트 평가

  • Liu et al. (2023):
    • AgentBench를 통해 LLM을 다양한 환경에서 평가(예: 웹 브라우징, 디지털 카드 게임).
    • 본 논문은 협상이라는 특정 영역에 초점을 맞춰, 협상 역학과 상호작용을 심층적으로 분석.
  • Park et al. (2023):
    • LLM 에이전트들이 각자의 페르소나와 기억을 기반으로 사회적 상호작용을 수행하는 시뮬레이션 제안.
    • 사회적 행동 모델링에 중점을 두었으나, 본 논문의 협상처럼 경쟁과 협력의 균형은 다루지 않음.

(2) 상호작용 전략

  • Lampinen et al. (2023):
    • LLM이 학습된 데이터를 기반으로 어떻게 능동적이고 인과적인 전략을 학습할 수 있는지 분석.
    • 본 논문의 협상 게임과 유사하게, 상호작용을 통해 전략이 발전하는 모습을 보여줌.
  • Andreas (2022):
    • LLM이 상대방의 목표를 추론하고, 이를 바탕으로 행동하는 목표 지향적 추론 모델링.
    • 본 논문에서의 Theory of Mind(ToM)와 비슷한 개념을 다룸.

3. 협상 및 윤리적 상호작용

(1) 협상에서의 윤리적 행동

  • Hendrycks et al. (2022):
    • 윤리적 행동을 유도하기 위해 협상 게임을 활용하여 에이전트의 행동을 평가.
    • 본 논문에서 다룬 탐욕적 에이전트와 협력적 에이전트의 상호작용과 유사한 설정.

(2) 조작 가능성과 방어

  • Abdelnabi et al. (2023):
    • LLM 통합 시스템에서 간접 프롬프트를 통해 발생할 수 있는 조작 가능성을 연구.
    • 본 논문에서의 탐욕적/방해 에이전트가 협상을 조작하는 사례와 관련.

4. 협상 프레임워크 개발

(1) 텍스트 기반 협상 게임

  • Talmor et al. (2019), Sap et al. (2019):
    • 텍스트 기반 시뮬레이션을 통해 LLM이 사회적 상호작용과 협상을 어떻게 처리하는지 평가.
    • 본 논문의 협상 게임은 이러한 프레임워크를 확장하여 다중 에이전트와 더 복잡한 설정을 포함.

(2) 새로운 게임 생성

  • Värtinen et al. (2022):
    • GPT를 활용해 롤플레잉 게임의 퀘스트를 자동 생성.
    • 본 논문에서는 LLM을 활용해 협상 게임의 이슈와 시나리오를 생성하여 게임 다양성을 증가.

5. 본 논문의 기여와 차별점

  • 기존 연구 확장:
    • 다중 에이전트와 다중 이슈를 포함한 복잡한 협상 프레임워크를 제안하여 기존 연구를 확장.
    • LLM의 상호작용 능력을 더욱 심층적으로 평가.
  • 새로운 벤치마크 제안:
    • 협상 게임을 통해 LLM의 추론, 계획, 협력, 조작 저항 능력을 평가할 수 있는 새로운 벤치마크를 구축.
  • 현실적 시나리오 시뮬레이션:
    • 현실적 협상 시나리오를 기반으로 한 동적 상호작용과 협상 전략 연구.

향후 연구 가능성

  1. 더 복잡한 협상 모델:
    • 비공개 메시지, 연합 형성 등으로 협상 구조 확장.
  2. 조작 방지와 공정성 강화:
    • 방해 및 조작 에이전트에 대한 방어 전략 개발.
  3. 현실적 협상 도구로의 발전:
    • 기업 협상, 고객 서비스 등 실용적 응용 가능성 탐구.

이 연구는 협상 게임을 통해 LLM의 다중 에이전트 상호작용과 전략적 추론을 평가할 수 있는 강력한 프레임워크를 제공하며, 향후 연구 및 응용에서 중요한 초석이 될 수 있습니다.

 

728x90