인공지능/공부

벨만 방정식, Q러닝, 반복적 정책 평가, SARSA, TD, MC 대략적 개념

이게될까 2024. 4. 23. 13:42
728x90
728x90

벨만 최적 방정식 (Bellman Optimality Equation)

벨만 최적 방정식은 강화학습에서 최적의 정책을 찾기 위한 재귀적인 관계를 나타냅니다. 이 방정식은 각 상태에서 취할 수 있는 모든 가능한 행동 중에서 가장 높은 기대 리턴을 제공하는 행동을 선택함으로써, 최적의 상태 가치 함수를 계산합니다.

벨만 기대 방정식 (Bellman Expectation Equation)

벨만 기대 방정식은 주어진 정책 (\pi)에 대해 각 상태의 가치 함수를 계산하는 데 사용됩니다. 이 방정식은 선택된 정책 하에서 각 상태의 기대 가치를 계산합니다.

반복적 정책 평가 (Iterative Policy Evaluation)

반복적 정책 평가는 주어진 정책의 가치 함수를 평가하기 위해 사용되며, 정책이 수렴할 때까지 가치 함수를 반복적으로 업데이트합니다. 이 과정은 정책 이터레이션의 일부로 사용됩니다.

밸류 이터레이션 (Value Iteration)

밸류 이터레이션은 각 상태의 최적 가치를 직접적으로 계산하고, 이를 통해 최적의 정책을 간접적으로 도출하는 방법입니다. 이 방법은 벨만 최적 방정식을 반복적으로 적용하여 수행됩니다.

정책 이터레이션 (Policy Iteration)

정책 이터레이션은 반복적 정책 평가와 정책 개선을 번갈아 수행하여 최적의 정책을 찾는 과정입니다. 평가 단계에서는 현재 정책의 가치 함수를 계산하고, 개선 단계에서는 계산된 가치 함수를 바탕으로 더 나은 정책을 생성합니다.

MDP 플레닝 (MDP Planning)

MDP 플레닝은 완전히 알려진 마르코프 결정 프로세스의 모델을 사용하여 최적의 정책을 계획하는 과정입니다. 이는 동적 프로그래밍, 몬테카를로 방법, TD 학습 등 다양한 방법을 포함할 수 있습니다.

몬테카를로 학습 (Monte Carlo Learning)

몬테카를로 학습은 완전한 에피소드를 통해 얻은 결과로부터 직접 학습하는 방법입니다. 각 에피소드가 완료된 후, 방문된 각 상태의 가치를 리턴을 통해 업데이트합니다.

몬테카를로 컨트롤 (Monte Carlo Control)

몬테카를로 컨트롤은 몬테카를로 학습을 통해 최적의 정책을 찾는 과정입니다. 에피소드별로 데이터를 수집하고, ( \epsilon )-greedy 정책과 같은 방법을 사용하여 탐험과 활용을 균형 있게 유지합니다.

TD 학습, 오류 (TD Learning, Error)

TD 학습은 부트스트래핑 방법을 사용하여, 현재의 추정을 기반으로 한 스텝 후의 가치를 사용해 업데이트합니다. TD 오류는 예측 가치와 실제 받은 보상 및 다음 추정 가치 사이의 차이를 나타냅니다.

SARSA (State-Action-Reward-State-Action)

SARSA는 온-폴리시 TD 학습 방법으로, 현재 상태와 행동에서 얻은 보상 및 다음 상태와 행동의 가치를 사용하여 현재의 행동 가치를 업데이트합니다.

Q러닝 (Q-Learning)

Q러닝은 오프-폴리시 TD 학습 방법으로, 다음 상태의 최대 가치를 이용하여 현재의 행동 가치를 업데이트합니다. 이는 에이전트가 실제로 선택하지 않은 행동의 가치도 업데이트할 수 있게 합니다.

728x90