Reflexion: Language Agents with Verbal Reinforcement Learning

인공지능/논문 리뷰 or 진행

Reflexion: Language Agents with Verbal Reinforcement Learning - 논문 리뷰

이게될까 2025. 2. 4. 17:31

728x90

Reflexion: Language Agents with Verbal Reinforcement Learning

Large language models (LLMs) have been increasingly used to interact with external environments (e.g., games, compilers, APIs) as goal-driven agents. However, it remains challenging for these language agents to quickly and efficiently learn from trial-and-

arxiv.org

LLM이 지속된 자기 반성을 통해 학습을 진행하여 강화학습과 같이 성과를 증진시킬 수 있다!

그런데 여기서의 강화학습은 In-context-Learning 단계에서 진행되는 것으로 파라미터가 변동하는 것이 없이 프롬프트로 진행되어 많은 리소스를 소모하지 않습니다.

언어로 나온 피드백이 모델의 출력을 바꾸는 것입니다.

과정은 단순합니다.

행동 -> 평가 -> 반성 -> 행동....

이렇게 계속 반복하며 Memory를 업데이트하고, 그에 따른 Reflection을 반영합니다.

이러한 방법으로 기존에 존재했던 ReAct, CoT를 이기는데 성공했네요

자연어를 통한 피드백으로 모델의 성능을 향상했다는 점으로 리소스를 적게 먹는 다는 것이 큰 장점이라고 봅니다.

LLM의 자기 반성을 통한 성능 증진: Reflexion 프레임워크

Reflexion 프레임워크는 대형 언어 모델(LLM)이 지속적인 자기 반성(Self-Reflection)을 통해 학습하며, 강화 학습(RL)과 유사한 방식으로 성과를 증진시킬 수 있음을 보여줍니다. 하지만 이 과정에서 전통적인 강화 학습과는 달리, 모델의 파라미터가 고정된 상태에서 진행됩니다. 이는 In-context Learning을 활용한 방식으로, 프롬프트를 통해 학습이 이루어지며 대규모 리소스를 소모하지 않는다는 점에서 큰 장점이 있습니다.

Reflexion의 핵심 아이디어

자연어 기반 피드백: Reflexion의 가장 큰 특징은 모델이 자연어로 피드백을 생성하고, 이를 기반으로 행동을 개선한다는 점입니다. 이 피드백은 숫자형 보상(scalar reward) 대신 언어적 피드백으로 제공되며, 더 구체적이고 직관적인 행동 개선 방향을 제시합니다.
파라미터 고정: Reflexion은 전통적인 강화 학습처럼 모델의 가중치를 업데이트하지 않고, 프롬프트와 메모리를 통해 학습을 진행합니다. 이는 학습에 필요한 리소스를 크게 줄이면서도 효과적인 성능 향상을 가능하게 합니다.
반복적 학습 구조: Reflexion은 행동 → 평가 → 반성 → 행동의 반복 구조로 이루어지며, 각 단계에서 메모리(memory)를 업데이트하고, 이를 다음 행동에 반영하여 학습이 이루어집니다.

작동 과정

Reflexion은 다음 단계를 통해 학습을 진행합니다:

행동 (Action):
- LLM이 주어진 상황에 따라 행동(텍스트나 작업)을 생성합니다.
- 이 과정은 정책(π_θ(a_i | s_i))에 따라 이루어지며, 상태 관찰(observation)을 기반으로 결정됩니다.
평가 (Evaluation):
- 행동 결과는 평가 모델(Evaluator)을 통해 점수(보상)나 피드백으로 변환됩니다.
- 보상은 단순한 성공/실패 신호로 제공되거나, 자연어 피드백으로 표현될 수 있습니다.
반성 (Reflection):
- 평가 결과를 바탕으로 자기 반성(Self-Reflection) 모델이 자연어 피드백을 생성합니다.
- 이 피드백은 장기 메모리(long-term memory)에 저장되어, 이후 시도에서 참고 자료로 활용됩니다.
메모리 업데이트 (Memory Update):
- 단기 메모리(현재 작업 기록)와 장기 메모리(과거 경험)가 통합되어, 모델의 다음 행동에 영향을 미칩니다.
다음 행동 반복:
- 이전 단계를 통해 학습된 피드백을 활용해 다음 행동을 개선합니다.

기존 모델과 비교

Reflexion은 기존의 ReAct(Reasoning + Acting) 및 CoT(Chain-of-Thought)을 개선하는 데 성공했습니다. 이는 다음과 같은 이유에서 가능합니다:

피드백 활용 능력:
- Reflexion은 단순히 행동 결과를 기록하는 데 그치지 않고, 그 실패 원인을 분석하고 개선 방향을 제시하는 자기 반성 메커니즘을 도입했습니다.
리소스 효율성:
- 파라미터를 업데이트하지 않기 때문에 기존 강화 학습보다 훨씬 적은 리소스로도 높은 성능을 달성할 수 있습니다.
학습 속도:
- Reflexion은 초기 실패에서 얻은 피드백을 빠르게 반영하며, 적은 시도로 높은 성능을 보입니다.

장점

자연어를 활용한 학습: 단순한 보상 값(scalar reward) 대신 자연어 피드백을 활용해 직관적이고 구체적인 개선 방향을 제공합니다.
리소스 절약: 파라미터를 고정한 상태에서 프롬프트를 통한 학습만으로 진행되어, 기존 강화 학습보다 효율적입니다.
범용성: Reflexion은 의사 결정(Decision Making), 논리적 추론(Reasoning), 코드 생성(Programming) 등 다양한 작업에 적용 가능하며, 모두에서 높은 성능을 기록했습니다.

결론

Reflexion은 LLM의 자기 반성 능력을 활용해 성능을 지속적으로 향상시키는 혁신적인 접근 방식입니다. 이는 AGI(Artificial General Intelligence)로 나아가기 위한 중요한 기반 기술로, 효율성, 범용성, 학습 속도 측면에서 기존 모델들을 크게 앞질렀습니다.

Reflexion은 AI 연구 및 실무에서 새로운 패러다임을 제시하며, 자연어를 통해 실패를 학습의 기회로 전환할 수 있는 방법을 입증했습니다.

수정된 글은 체계적이고 전문적으로 논문의 내용을 전달하며, 블로그 독자들에게 Reflexion의 핵심 아이디어와 성과를 명확히 이해시키기에 적합합니다. 😊

연구 배경	- LLM(대형 언어 모델)이 스스로 학습하며 성능을 개선할 수 있는 강화 학습 유사 방법론 제안. - 기존 RL의 높은 리소스 소모 문제를 해결하고, 자연어 기반 피드백으로 효율적인 학습을 지원.
핵심 아이디어	- 모델의 파라미터를 고정한 상태에서 In-Context Learning을 활용. - 실패에서 학습하도록 자기 반성(Self-Reflection) 메커니즘 도입. - 자연어 피드백으로 행동을 개선하고, 장기 메모리로 실패 경험 저장.
작동 과정	1. 행동(Action): LLM이 현재 상태를 바탕으로 행동 생성. 2. 평가(Evaluation): 행동 결과를 평가 모델이 분석 및 점수 제공. 3. 반성(Reflection): 자연어 피드백 생성 후 메모리에 저장. 4. 반복: 피드백을 참고해 다음 행동 개선.
모델 구성 요소	- Actor: 현재 상태를 바탕으로 행동 생성 (예: ReAct, CoT 활용). - Evaluator: 행동 결과를 평가하여 보상 생성 (예: Heuristic, LLM 기반 평가). - Self-Reflection: 자연어 피드백 생성 및 메모리 업데이트.
결과	- ALFWorld: 성공률 77%(ReAct) → 97%(Reflexion). - HotpotQA: 정확도 14% 향상. - HumanEval: 코드 생성 정확도 80.1%(GPT-4) → 91.0%(Reflexion).
주요 장점	1. 리소스 효율성: 파라미터 고정을 통해 비용 절감. 2. 실패 활용: 실패를 학습의 기회로 전환하여 성능 개선. 3. 범용성: 다양한 작업(의사 결정, 추론, 프로그래밍 등)에 높은 성능 기록.
한계	1. 메모리 제한: 최대 3개의 반성만 저장 가능. 2. 비정형 작업: 구조화되지 않은 작업에서는 성능 저하 가능. 3. 자연어 피드백 품질: 항상 최적의 피드백 생성이 보장되지 않음.
결론	Reflexion은 실패를 학습으로 전환하는 자기 반성 기반 학습 프레임워크로, 기존 모델보다 효율적이고 강력한 성능을 제공. 이는 AGI 연구의 중요한 기반 기술이 될 가능성이 큼.
향후 연구 방향	1. 대규모 메모리 시스템 개발. 2. 더 복잡한 환경에서 성능 검증. 3. 자연어 피드백 품질 개선. 4. 실시간 학습과 완전 자동화된 자기 반성 시스템 개발.

이 Figure는 Reflexion 프레임워크가 세 가지 주요 작업 유형에서 어떻게 작동하는지를 시각적으로 설명한 것이다. 각각의 작업은 의사 결정(Decision Making), 프로그래밍(Programming), 그리고 추론(Reasoning)을 포함하며, Reflexion이 각 작업에서 어떻게 개선되었는지를 단계별로 보여준다.

1. 의사 결정 (Decision Making)

(a) Task:
- 작업은 주어진 공간에서 "팬(pan)을 청소한 후 카운터에 놓기"이다.
- 이는 다단계 의사 결정 과정이 필요하며, 잘못된 행동이나 순서로 인해 실패할 수 있다.
(b) Trajectory:
- 초기 시도에서 에이전트는 stoveburner1에서 팬을 집으려고 하지만 팬이 거기에 없었고, 같은 실패를 반복한다.
- 이는 잘못된 계획 및 행동 순서를 보여준다.
(c) Evaluation:
- 평가 단계에서 내부 규칙(Heuristic)이 실패 원인을 "Hallucination"으로 판정한다. 이는 에이전트가 팬이 잘못된 위치에 있다고 생각했다는 것을 의미한다.
(d) Reflection:
- Reflexion 과정에서 에이전트는 "팬이 stoveburner1에 없다는 것을 인지했어야 했으며, 다른 위치에서 팬을 찾아야 했다"고 스스로 피드백한다.
(e) Next Trajectory:
- 다음 시도에서 에이전트는 stoveburner2에서 팬을 찾아 작업을 성공적으로 수행한다.

2. 프로그래밍 (Programming)

(a) Task:
- 작업은 "괄호 문자열의 유효성을 확인하는 함수"를 작성하는 것이다.
(b) Trajectory:
- 초기 코드에서는 "열린 괄호와 닫힌 괄호의 총 개수만 비교"하며, 괄호의 순서를 확인하지 않는다.
- 이로 인해 잘못된 코드가 생성되고 테스트에서 실패한다.
(c) Evaluation:
- 테스트 실행 결과, 코드가 실패한다는 피드백을 받는다.
(d) Reflection:
- Reflexion에서 에이전트는 "코드가 괄호의 순서를 확인하지 않았기 때문에 실패했다"고 피드백을 작성한다.
(e) Next Trajectory:
- 피드백을 기반으로, 에이전트는 조건문을 수정하여 괄호의 순서와 개수를 모두 확인하는 올바른 코드를 작성한다.

3. 추론 (Reasoning)

(a) Task:
- 질문은 "John Lanchester와 Alan Dean Foster가 공통적으로 가지고 있는 직업은 무엇인가?"이다.
(b) Trajectory:
- 초기 추론에서 에이전트는 "novelist(소설가)와 screenwriter(시나리오 작가)"라고 답하지만, 이들이 모두 screenwriter라는 증거가 부족하다.
(c) Evaluation:
- 환경에서 이 답변이 틀렸다는 피드백을 준다.
(d) Reflection:
- Reflexion에서 에이전트는 "두 사람 모두 screenwriter라는 가정이 잘못되었으며, 개별 직업을 더 정확히 식별해야 했다"고 반성한다.
(e) Next Trajectory:
- 다음 시도에서는 두 사람 모두 소설가라는 점을 인식하고, 올바르게 "novelist"로 답한다.

Figure의 핵심 메시지

이 Figure는 Reflexion의 다음과 같은 주요 특징을 보여준다:

실패에서 학습: Reflexion은 실패한 작업에서 오류를 분석하고, 이를 기반으로 다음 시도에서 개선된 결과를 도출한다.
자기 반성(Self-Reflection): 자연어로 된 피드백을 생성하고, 이를 메모리에 저장하여 학습에 활용한다.
다양한 작업 적용: Reflexion은 의사 결정, 프로그래밍, 추론과 같은 다양한 작업에서 동일한 프로세스를 적용하여 성능을 개선한다.

논문에서 강조된 Reflexion의 장점

샘플 효율성: 적은 반복으로도 높은 성능을 달성.
일반화 가능성: 다양한 작업 환경에서 성능을 개선.
명확한 피드백 제공: 자연어 피드백으로 문제와 개선 방향을 명확히 제시.

이 Figure는 Reflexion이 단순한 강화 학습 방식이 아니라, 인간과 유사한 학습 패턴(반복적인 자기 개선)을 통해 지속적으로 발전할 수 있음을 잘 보여준다.

1. 연구 배경 및 문제 제기

최근 대형 언어 모델(LLM)을 활용한 자동화 에이전트(예: 게임 플레이, 코드 작성, API 활용 등)가 활발히 연구되고 있지만, 기존의 강화 학습(RL) 방식은 다음과 같은 문제를 가지고 있다.

샘플 효율성 문제: 전통적인 RL 방식은 대량의 샘플과 긴 훈련 시간이 필요하여 비용이 크다.
모델 업데이트 한계: 대부분의 RL은 모델의 가중치를 업데이트하는 방식으로 진행되며, 이는 LLM을 활용하는 경우 비효율적이다.
신속한 학습 어려움: 기존 방법들은 빠른 피드백을 통한 개선이 어려워 실용성이 떨어진다.

이 연구에서는 "Reflexion"이라는 새로운 프레임워크를 제안하여, 모델의 가중치를 직접 업데이트하는 대신 언어적 피드백(verbal reinforcement)을 활용하여 에이전트를 강화하는 방식을 도입한다.

2. Reflexion의 주요 개념

Reflexion은 기존의 강화 학습(RL)과 달리, 언어적 반성(Self-Reflection)을 활용하여 모델이 스스로 피드백을 생성하고, 이를 활용하여 행동을 개선하는 방식이다.

에이전트의 실행 과정
1. 에이전트는 특정 작업을 수행하고, 결과(trajectory)를 기록한다.
2. 평가 모델(Evaluator)이 실행 결과를 분석하여 피드백을 생성한다.
3. Reflexion 모델(Self-Reflection Model)이 평가 결과를 바탕으로 자연어 피드백을 생성한다.
4. 생성된 피드백은 메모리에 저장되며, 이후 실행에서 참조하여 더 나은 결정을 내리도록 유도한다.
Reflexion의 특징
- 기존의 강화 학습과 달리 LLM 가중치를 업데이트하지 않음 (Lightweight한 학습 방식).
- 환경에서 받은 피드백을 자연어로 변환하여, 보다 직관적이고 명확한 개선점을 제공.
- 장기적인 경험을 활용하는 메모리 기반 학습 방식을 통해 지속적인 성능 향상 가능.

3. 실험 및 성능 분석

Reflexion의 효과를 검증하기 위해, 다양한 작업(Sequential Decision-Making, Reasoning, Programming)에서 실험을 수행했다.

(1) Sequential Decision Making: ALFWorld

목표: 텍스트 기반 환경에서 복잡한 작업을 수행하는 능력 평가 (예: 물건 찾기, 이동, 조작).
방법: Reflexion이 적용된 ReAct 모델과 기존 ReAct 모델을 비교.
결과:
- Reflexion 적용 시 기존 대비 22% 성능 향상.
- 반복적으로 동일한 실수를 하는 경우가 줄어들고, 반성 과정에서 더 나은 탐색 전략을 도출.

(2) Reasoning: HotpotQA

목표: 복잡한 정보 검색 및 논리적 추론 능력 평가.
방법: Reflexion + Chain-of-Thought(CoT) 방식과 기존 CoT 모델 비교.
결과:
- Reflexion이 적용된 CoT 모델이 기존 대비 정확도 14% 향상.
- 특히, 동일한 질문을 반복했을 때 에이전트가 스스로 오류를 교정하는 모습을 보임.

(3) Programming: HumanEval 및 MBPP

목표: 코딩 문제 해결 능력 평가.
방법: Reflexion이 적용된 모델과 기존 코드 생성 모델(GPT-4, CodeT 등) 비교.
결과:
- HumanEval 코드 생성 정확도: 80.1% (GPT-4) → 91.0% (Reflexion 적용 시)
- Rust 언어에서 코드 생성 정확도: 60.0% (GPT-4) → 68.0% (Reflexion 적용 시)
- 단, MBPP 데이터셋에서는 Reflexion이 다소 낮은 성능을 보임(이유: 불완전한 테스트 생성 가능성).

4. Reflexion의 한계점

Reflexion은 기존 방법 대비 강력한 성능을 보였지만, 몇 가지 한계를 가진다.

비정형적인 문제에서는 효과 제한: WebShop과 같은 e-commerce 검색 문제에서는 Reflexion이 충분한 성능을 내지 못함 (학습된 패턴이 다양하지 않음).
메모리 관리의 어려움: LLM의 컨텍스트 윈도우 제한으로 인해, 모든 반성 정보를 저장할 수 없으며, 최대 3개 정도의 메모리만 유지.
자연어 피드백의 품질 문제: Reflexion이 생성하는 피드백이 항상 정확한 것은 아님. 특히 코드 생성의 경우, 테스트 코드의 신뢰도가 낮을 경우 오류가 지속될 가능성이 있음.

5. 연구의 기여 및 향후 연구 방향

Reflexion은 기존 RL 방식이 아닌 자연어를 활용한 강화 학습 방법을 제안하여, LLM 기반 에이전트의 성능을 효과적으로 향상시켰다. 특히, 모델 가중치를 업데이트하지 않고도 지속적인 개선이 가능하다는 점에서 실용성이 크다.

연구 기여
- LLM이 자체적으로 학습할 수 있는 "Verbal Reinforcement Learning" 방식을 제안.
- 다양한 작업에서 성능을 개선하며, 특히 코드 생성(Task Completion)에서 SOTA 성능을 달성.
- 장기 메모리를 활용한 강화 학습 방식이 기존 RL의 단점(샘플 효율성 문제)을 해결할 수 있음을 입증.
향후 연구 방향
- 더 긴 메모리 유지 기법 탐색: 벡터 임베딩 기반 DB와 결합하여, 보다 효율적인 메모리 관리 가능성 탐색.
- Reflexion의 확장: 자연어 기반 의사결정 이외에도, 로봇 제어, 복잡한 환경 탐색, 논리적 추론 등 다양한 응용 가능성 연구.
- 자동 피드백 개선 기법 연구: Reflexion이 생성하는 피드백의 품질을 자동으로 평가하고 향상시키는 방법 탐색.

6. 결론

Reflexion은 기존 RL 방식과 달리 자연어 반성을 통해 성능을 향상시키는 새로운 접근 방식이다. 이를 통해 강화 학습의 샘플 효율성을 크게 개선하고, LLM 기반 에이전트의 자기 개선(self-improvement) 능력을 극대화할 수 있다.

이 연구는 LLM을 활용한 자율 학습(agent self-learning)을 위한 새로운 가능성을 제시하며, 향후 지능형 AI 시스템의 지속적 학습 방법론으로 확장될 가능성이 크다.

Reflexion 관련 연구

Reflexion은 기존의 언어 모델(LLM) 기반 강화 학습(RL) 기법과 차별화되는 언어적 자기 반성(Verbal Self-Reflection)을 이용하여 에이전트 성능을 향상시키는 새로운 프레임워크이다. 이를 기존 연구들과 비교하여 Reflexion이 어떻게 발전되었는지 정리하겠다.

1. 관련 연구 정리

Reflexion은 언어 모델 기반 강화 학습 및 자기 개선(self-improvement) 학습과 관련된 연구들과 밀접한 연관이 있다. 아래 연구들은 Reflexion과 유사한 맥락에서 연구된 대표적인 방법들이다.

(1) Self-Refine (Madaan et al., 2023)

핵심 개념:
- LLM이 자기 자신을 평가하고 반복적으로 출력을 개선하는 Iterative Self-Refinement 방식 제안.
- 모델이 생성한 출력을 스스로 평가하고 개선할 수 있도록 학습하는 프레임워크.
한계점:
- 단일 문장 수준에서만 적용되며, 장기적인 메모리를 유지할 수 없음.
- 반영된 피드백이 다음 출력에 직접적인 영향을 주지 않음.
Reflexion과 차이점:
- Reflexion은 단순히 출력 개선이 아니라, 피드백을 메모리에 저장하여 장기적인 학습 가능.
- Reflexion은 연속적인 의사 결정(task trajectory)을 학습하는 강화 학습 방식을 도입.

(2) ReAct (Yao et al., 2023)

핵심 개념:
- LLM이 "생각(Reasoning) + 행동(Action)"을 동시에 수행하는 방식 제안.
- 검색(Search) 및 의사 결정(Decision Making)에 효과적이며, WebGPT와 같은 검색 기반 모델보다 성능이 우수함.
한계점:
- 피드백을 반영하지 않음(즉, 실수를 반복할 가능성이 있음).
- 단일 에피소드 내에서만 동작하며, 장기적인 자기 개선 기능 부족.
Reflexion과 차이점:
- Reflexion은 ReAct 방식에 자기 반성(Self-Reflection)과 메모리 기능을 추가하여, 실패 원인을 학습하고 재사용.
- Reflexion 적용 시 반복 학습을 통해 성능이 지속적으로 향상됨.

(3) CodeT (Chen et al., 2022)

핵심 개념:
- 코드 생성(Code Generation)에서 자체 테스트(Test Generation)를 활용하여 성능을 향상.
- 프로그램이 실행 가능한지 테스트를 생성하고 검증하는 방식.
한계점:
- 테스트 생성이 정확하지 않으면 성능이 저하될 가능성이 있음.
- 생성된 코드가 잘못된 경우, 개선 과정이 명확하지 않음.
Reflexion과 차이점:
- Reflexion은 테스트 생성 외에도 잘못된 코드의 원인을 자연어로 분석하여 개선 방향을 제공.
- Reflexion은 프로그래밍 뿐만 아니라, 일반적인 추론 및 의사 결정 문제에도 적용 가능.

(4) WebGPT (Nakano et al., 2021)

핵심 개념:
- LLM이 웹 검색을 통해 정보를 수집하고 정답을 도출하는 방식.
- 사람이 제공한 피드백을 활용하여 성능을 점진적으로 향상.
한계점:
- 강화 학습을 위한 자체적인 피드백 메커니즘이 없음(즉, 사람이 직접 평가해야 함).
- LLM이 학습하는 과정에서 지속적인 자기 개선이 어려움.
Reflexion과 차이점:
- Reflexion은 자체 평가(Self-Evaluation) 및 자기 반성(Self-Reflection)을 사용하여, 사람의 개입 없이도 지속적인 학습 가능.
- Reflexion은 단순 검색(Search) 기반이 아니라, 의사결정(Decision Making) 및 문제 해결(Problem Solving)에 초점.

(5) AlphaCode (Li et al., 2022)

핵심 개념:
- 대형 언어 모델을 활용하여 컴퓨터 프로그래밍 문제를 자동으로 해결하는 방식.
- 코드 실행을 통해 정답 여부를 판단하고, 여러 샘플을 생성하여 최적의 솔루션 선택.
한계점:
- 모델이 스스로 오류를 인식하고 수정하는 과정이 없음.
- 사람의 개입 없이 코드 개선이 어려움.
Reflexion과 차이점:
- Reflexion은 단순히 여러 코드를 생성하는 것이 아니라, 잘못된 코드의 원인을 분석하고 자연어로 피드백을 제공.
- Reflexion을 적용하면 코드 작성 과정에서 점진적으로 개선하는 자기 학습(self-learning) 가능.

2. Reflexion의 발전 사항

Reflexion은 위의 연구들을 기반으로 발전한 새로운 프레임워크이며, 다음과 같은 핵심 발전 사항이 있다.

(1) 자기 반성을 통한 강화 학습

기존 모델들은 대부분 환경으로부터 정량적인 피드백(예: 점수, 정확도 등)만 활용.
Reflexion은 정량적인 피드백을 자연어 피드백으로 변환하여, LLM이 더 명확하게 이해할 수 있도록 개선.
이는 전통적인 강화 학습의 샘플 효율성(sample efficiency) 문제를 해결하는 데 기여.

(2) 장기 메모리 활용

기존 RL 기반 LLM들은 단일 에피소드 내에서만 작동하여, 과거 경험을 충분히 활용하지 못함.
Reflexion은 장기 메모리(long-term memory)를 사용하여, 과거의 반성 결과를 저장하고 재활용 가능.
이는 사람이 학습하는 방식과 유사한 학습 방법을 제공.

(3) 코드 생성 및 논리적 추론 강화

CodeT, AlphaCode와 같은 기존 코드 생성 모델들은 테스트 기반 검증을 사용했지만, 오류를 자연어로 분석하는 기능이 없음.
Reflexion은 테스트 실패 원인을 분석하고, 이를 바탕으로 코드 개선을 유도하는 방식으로 발전.

(4) 다양한 태스크 적용 가능

기존 연구들은 특정 도메인(예: 코드 생성, 웹 검색, 게임 플레이)에 초점.
Reflexion은 의사 결정(Decision Making), 논리적 추론(Reasoning), 코드 생성(Programming) 등 다양한 태스크에 적용 가능.
실험 결과, HotPotQA(논리적 추론), ALFWorld(의사 결정), HumanEval(코드 생성)에서 모두 성능 향상을 보임.

3. 결론

Reflexion은 기존의 RL 및 LLM 기반 연구들을 바탕으로 "자연어 자기 반성(Self-Reflection)"을 활용한 강화 학습이라는 새로운 접근 방식을 제안했다.

기존 연구들과 비교했을 때, 샘플 효율성이 높고, 자율적인 자기 개선(Self-Improvement)이 가능하며, 장기 메모리를 활용한 지속적 학습이 가능하다는 점에서 발전된 형태라고 볼 수 있다.
앞으로 Reflexion은 더 긴 컨텍스트 메모리 사용, 다양한 응용 분야 확장, 자기 반성 품질 개선 등의 방향으로 연구가 확장될 가능성이 크다.

Reflexion의 접근 방식은 앞으로 AGI(Artificial General Intelligence) 연구에서 중요한 방향성을 제시할 가능성이 크며, LLM 기반 에이전트가 더욱 효율적으로 학습하고 발전할 수 있는 기반을 마련했다고 볼 수 있다. 🚀

Reflexion의 방법론

1. Reflexion의 주요 구성 요소

Reflexion은 Actor, Evaluator, 그리고 Self-Reflection이라는 세 가지 주요 모듈로 구성됩니다. 각 모듈은 LLM(대형 언어 모델)을 기반으로 하며, 서로 협력하여 에이전트의 성능을 점진적으로 개선합니다.

(1) Actor (행동 생성자)

역할:
- 현재 상태(state observation)를 기반으로 텍스트와 행동(action)을 생성.
- 정책(policy) π_θ(a_i | s_i)에 따라 행동 a_t를 선택하고 환경에서 관찰 o_t를 받는다.
특징:
- 메모리 mem를 활용하여 과거 경험을 참조한다.
- 다양한 생성 모델(예: Chain of Thought, ReAct)을 탐색하여 상황에 맞는 행동 및 텍스트 생성.
예시: 방 안에서 팬(pan)을 찾아 카운터에 놓는 작업을 수행할 때, Actor는 "pan을 어디서 찾을지"와 "어떤 행동을 할지"를 결정.

(2) Evaluator (평가자)

역할:
- Actor가 생성한 행동의 질(trajectory)을 평가하고 점수(보상 r_t)를 생성.
- 보상 함수는 작업별로 다르게 정의된다 (예: 정확도 평가, 휴리스틱 함수 사용).
특징:
- 다양한 평가 방법 적용 가능 (예: 정확한 매칭 평가(Exact Match), LLM 기반 평가).
- 평가 결과는 Self-Reflection 단계에서 활용된다.
예시: "pan이 올바르게 카운터에 놓였는가?"를 평가하여 성공/실패를 결정.

(3) Self-Reflection (자기 반성자)

역할:
- Evaluator에서 받은 보상과 trajectory를 바탕으로 자연어 피드백을 생성.
- 이 피드백은 장기 메모리로 저장되어 다음 행동에 참고 자료로 활용된다.
특징:
- 단순한 보상 값을 넘어서, 행동 개선을 위한 구체적인 언어적 힌트를 제공.
- 실패한 원인을 파악하고 더 나은 행동 계획을 세울 수 있도록 유도.
예시: "팬이 잘못된 위치에 있다고 가정한 것이 문제였음. 다음 시도에서는 올바른 위치부터 탐색해야 함"이라는 반성 생성.

2. Reflexion의 메모리 구조

Reflexion은 인간의 학습 방식에서 영감을 받아 단기 메모리(short-term memory)와 장기 메모리(long-term memory)를 결합하여 작동합니다.

단기 메모리 (Trajectory)
- 현재 에피소드에서 발생한 행동 및 관찰 기록.
- 환경과의 즉각적인 상호작용에 사용됨.
장기 메모리 (Experience)
- Self-Reflection에서 생성된 반성적 텍스트를 저장.
- 과거 실패 및 성공 경험을 요약하여, 이후 행동에 참고 자료로 사용.
- 제한된 메모리 크기(Ω, 일반적으로 1-3개)로 관리.

3. Reflexion 알고리즘 작동 방식

Reflexion의 알고리즘(Algorithm 1)은 다음과 같은 단계를 포함합니다:

(1) 초기화

Actor, Evaluator, Self-Reflection 모델을 초기화 (M_a, M_e, M_{sr}).
초기 정책(π_θ)을 설정하고 trajectory τ_0 생성.

(2) 평가 및 반성

Evaluator(M_e)가 trajectory를 평가하여 보상 r_t 생성.
Self-Reflection(M_{sr})이 trajectory와 보상을 분석하여 자연어 피드백 sr_t 생성.

(3) 반복 학습

피드백 sr_t를 메모리 mem에 추가.
Actor가 mem을 참고하여 새로운 trajectory τ_t를 생성.
이 과정을 평가자가 작업 완료를 확인하거나 최대 시도 횟수(t < max_trials)에 도달할 때까지 반복.

(4) 종료

작업이 완료되면 학습 종료.

4. Reflexion 작동 예시

예시 1: 의사결정 작업

작업: 팬(pan)을 찾아서 카운터에 놓기.

Actor가 "stoveburner1"에서 팬을 집으려 하지만 실패.
Evaluator는 "팬이 잘못된 위치에서 검색되었음"이라고 평가.
Self-Reflection에서 "다른 위치(stoveburner2)에서 팬을 검색해야 함"이라고 반성.
다음 시도에서 Actor는 stoveburner2로 이동하여 작업 성공.

예시 2: 코드 생성 작업

작업: 올바른 괄호 문자열인지 확인하는 함수 작성.

Actor가 "괄호의 개수만 비교"하는 코드를 작성했지만, 순서를 검증하지 않아 실패.
Evaluator는 "테스트 실패"를 보고.
Self-Reflection에서 "괄호의 순서를 확인하는 조건을 추가해야 함"이라고 피드백 생성.
Actor가 피드백을 반영하여 수정된 코드 작성.

5. Reflexion의 강점

자기 개선: 자연어 피드백을 활용해 에이전트가 스스로 학습하고 발전.
샘플 효율성: 적은 반복으로도 작업 성능 개선.
일반화 가능성: 다양한 작업(의사결정, 프로그래밍, 추론 등)에 적용 가능.

Reflexion은 인간과 유사한 학습 패턴을 도입하여, 기존 LLM 기반 에이전트보다 더 빠르고 효율적으로 학습할 수 있는 새로운 가능성을 제시한다.

Reflexion이 ALFWorld에서 성능을 향상시킨 방식과 결과

ALFWorld의 실험 개요

환경: ALFWorld는 TextWorld를 기반으로 설계된 텍스트 기반 환경으로, 에이전트가 물체를 찾거나 조작하는 다단계 작업을 수행하도록 설계됨.
작업 예시:
1. 숨겨진 물체 찾기 (예: 서랍에서 주걱 찾기).
2. 물체 이동 (예: 칼을 도마로 옮기기).
3. 물체 조작 (예: 토마토를 냉장고에 넣어 냉각).
기법:
- ReAct 모델: 중간 사고 단계(explicit intermediate thoughts)를 사용해 장기 작업을 수행.
- 자기 반성(Self-Reflection): 실패 시 trajectory(행동 기록)를 분석하고, 피드백을 통해 개선된 계획 수립.

1. Reflexion의 적용 방법

Baseline (ReAct만 사용): 실패 후 단순히 환경을 초기화하고 새로운 시도를 시작.
ReAct + Reflexion:
1. 실패 원인을 Self-Reflection 모듈이 분석.
2. 자연어로 된 반성적 피드백을 생성.
3. 이 피드백을 메모리에 저장하여 다음 시도에서 활용.
4. 두 가지 자기 평가 방식 적용:
  - Heuristic: 3번 이상 같은 행동 반복 또는 30번 이상의 비효율적인 행동을 기준으로 반성 유도.
  - GPT 기반 평가: LLM을 활용해 실패의 원인 분류.

2. 성능 결과

(a) 성공률 (좌측 그래프)

ReAct Only:
- 초기 6번의 시도에서 약간의 성능 개선을 보였으나, 이후 성능 향상이 정체(성공률 77%).
ReAct + Reflexion (Heuristic):
- 두 번째 시도부터 성능이 급격히 향상.
- 10번째 시도에서 거의 모든 작업(약 97%)을 성공적으로 수행.
ReAct + Reflexion (GPT):
- Heuristic과 유사한 추세로 성능이 향상되지만, Heuristic보다는 다소 느린 초기 향상률을 보임.
- 최종적으로 94%의 성공률에 도달.

(b) 실패 원인 분류 (우측 그래프)

Hallucination (환각 오류):
- 에이전트가 잘못된 가정을 하고, 물체를 소유했다고 착각하는 오류.
- Reflexion을 사용하면 환각 오류가 빠르게 감소하며, 10번째 시점에는 거의 사라짐.
Inefficient Planning (비효율적 계획):
- 동일한 행동 반복으로 비효율적인 계획을 수행하는 경우.
- Reflexion 적용 시 비효율적 계획이 10번째 시점에 거의 0에 가까워짐.

3. Reflexion의 주요 개선점

(1) 초기 실패에서 학습

Reflexion은 실패한 trajectory를 분석하고, 구체적인 행동 개선 방향을 자연어로 제공.
예를 들어, "팬을 stoveburner1에 있다고 잘못 가정했다"는 반성을 통해 에이전트가 새로운 행동을 탐색.

(2) 장기 메모리를 활용한 효율적 검색

여러 표면/컨테이너를 탐색해야 하는 경우, 이전 실패 경험을 참조하여 효율적인 탐색 전략을 수립.
이는 탐색 시간을 단축하고, 반복 실패를 방지.

(3) 지속적 학습

Reflexion이 제공하는 자기 반성 메커니즘은 에이전트가 지속적으로 실수를 줄이고, 점진적으로 성능을 개선하도록 지원.
Heuristic 및 GPT 기반 평가 모두 성공률을 높였으나, Heuristic이 더 빠른 초기 학습 효과를 보임.

4. 결과 요약

Reflexion은 ReAct 모델에 비해 성공률 20% 이상 증가 (77% → 97%).
특히, Reflexion은 비효율적 계획과 환각 오류를 대폭 줄이며, 실패를 유의미한 경험으로 전환.
Reflexion의 반성적 학습은 에이전트가 복잡한 작업을 처리하는 능력을 강화했으며, ALFWorld에서 거의 완벽한 성능을 달성.

실제 예시

문제: 에이전트가 주걱을 서랍(desk drawer)에서 찾아야 하는데, 잘못된 서랍을 반복적으로 열어봄.
Reflexion 반성: "이전에 drawer1에 주걱이 없었음. 다음 시도에서는 drawer2부터 탐색."
결과: 다음 시도에서 drawer2에서 바로 주걱을 찾고 작업 성공.

Reflexion은 실패를 학습의 기회로 전환함으로써, 에이전트의 성능과 효율성을 극대화했다.

1. 결과

Reflexion 프레임워크는 LLM을 활용한 자기 반성(Self-Reflection) 메커니즘을 통해 다양한 작업에서 성능을 크게 향상시켰으며, 다음과 같은 구체적인 결과를 도출했다.

(1) Sequential Decision Making (ALFWorld)

성과:
- Reflexion은 134개의 ALFWorld 환경 중 130개를 성공적으로 해결, 기존 ReAct 모델의 성공률(77%)을 97%로 크게 개선.
- 초기 실패를 분석해 구체적인 자연어 피드백을 생성함으로써 환각 오류(Hallucination)와 비효율적 계획(Inefficient Planning) 문제를 거의 완전히 제거.
학습 곡선:
- Reflexion 적용 후, 첫 번째 시도에서 두 번째 시도로 넘어가며 성능이 급격히 향상.
- 이후 10번의 시도 내에 거의 완벽한 성과를 달성.

(2) Reasoning (HotpotQA)

성과:
- Reflexion은 논리적 추론 작업에서도 기존 Chain-of-Thought(CoT) 모델 대비 14% 높은 정확도를 기록.
- 실패한 추론 결과에 대해, 오류 원인을 자연어로 분석하여 추론 능력을 지속적으로 개선.

(3) Programming (HumanEval)

성과:
- Reflexion은 코드 생성 작업에서 기존 GPT-4 모델 대비 HumanEval 정확도를 80.1%에서 91.0%로 향상.
- 실패한 테스트 케이스를 기반으로, 반성적 피드백을 생성해 코드를 개선.

(4) 학습 효율성

Reflexion은 환경에서의 보상을 단순히 숫자(scalar)로 사용하는 기존 방식과 달리, 자연어로 구체적인 개선 방향을 제시하여 샘플 효율성을 크게 향상.
에이전트가 단기적 실패를 학습의 기회로 활용함으로써 적은 시도로 높은 성능을 달성.

2. 결론

논문은 Reflexion이 자연어를 활용한 강화 학습(Verbal Reinforcement Learning)이라는 새로운 패러다임을 제시하며, 다음과 같은 결론을 도출했다.

(1) Reflexion의 기여

실패의 학습화: 실패한 행동(trajectory)을 반성적으로 분석하고, 개선 방향을 구체적으로 언어화하여 에이전트의 성능을 점진적으로 향상.
메모리 기반 학습: 단기 메모리와 장기 메모리를 결합하여, 과거 경험을 학습 및 활용. 이는 인간 학습과 유사한 패턴을 도입.
다목적 학습: Reflexion은 의사 결정, 논리적 추론, 프로그래밍 등 다양한 작업에서 높은 성능을 기록하며 범용성을 입증.
샘플 효율성 향상: 기존 강화 학습 방식에 비해 적은 반복 학습으로도 높은 성능을 달성.

(2) Reflexion의 장점

인간과 유사한 학습 방식: Reflexion은 에이전트가 실패를 학습의 자원으로 활용하게 하여, 지속적인 자기 개선(Self-Improvement)이 가능.
높은 확장성: Reflexion은 다양한 태스크에 적용 가능하며, 특히 복잡한 환경이나 장기적 의사결정이 필요한 작업에서 강력한 성능을 발휘.
추론력 향상: 자연어 기반 반성을 통해 LLM의 논리적 사고 및 오류 수정 능력을 강화.

(3) 한계점

메모리 제한: LLM의 컨텍스트 윈도우 제한으로 인해, 최대 3개의 반성적 경험만 저장 가능. 이는 대규모 메모리가 필요한 복잡한 작업에서 한계로 작용할 가능성.
비정형 작업: Reflexion은 구조화되지 않은 작업에서는 성능이 낮을 수 있음.
자연어 피드백 품질: 생성된 피드백이 항상 정확하거나 최적은 아님.

3. 마무리 및 향후 연구 방향

(1) Reflexion의 의의

Reflexion은 기존 강화 학습과 차별화된 자연어 기반 학습 방식을 제안하며, 실패에서 학습하는 효율적이고 인간적인 학습 모델을 제시했다.
이는 기존 LLM의 단점을 보완하며, 강화 학습의 새로운 패러다임을 열었다.

(2) 향후 연구 방향

메모리 확장: 벡터 임베딩을 활용한 대규모 메모리 관리 시스템 개발.
다양한 환경에서의 테스트: Reflexion의 성능을 더욱 복잡한 비정형 환경(예: 동적 물리 환경, 로봇 제어)에서 검증.
피드백 품질 향상: Reflexion이 생성하는 자연어 피드백의 정확성과 유용성을 개선하기 위한 추가 연구.
자동화된 자기 반성: Reflexion의 반성 과정을 완전히 자동화하고, 실시간 학습 가능성을 탐구.

최종 요약

Reflexion은 실패를 학습의 원천으로 삼아 에이전트의 성능을 지속적으로 향상시키는 혁신적인 프레임워크이다. 이를 통해 인공지능의 자기 학습(Self-Learning) 및 자기 개선(Self-Improvement) 가능성을 입증했으며, 향후 AGI(Artificial General Intelligence) 연구의 중요한 기초 기술로 활용될 가능성이 크다.

저작자표시 비영리

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models - 논문 리뷰 (0)	2025.02.05
Language Models are Few-Shot Learners - 논문 리뷰 (0)	2025.02.05
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - 논문 리뷰 (3)	2025.02.03
DeepSeek-V3 Technical Report - 논문 리뷰 (0)	2025.02.02
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model - 논문 리뷰 (1)	2025.02.02

현재글Reflexion: Language Agents with Verbal Reinforcement Learning - 논문 리뷰

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31