반응형

2024/04/23 4

강화학습 - TD에서 s'을 언제 업데이트 해야 할까?

MC에서 에피소드가 끝나야만 업데이트 하는 조건 때문에 끝이 없구나 너무 긴 에피소드에 대해서는 대안이 필요했다. TD는 '추측을 추측으로 업데이트하자'로 나온 종료하지 않은 MDP에서 학습 가능한 방법이다. TD에서는 s'으로 s에서 액션을 진행하여 상태가 변화하였다. 그런데 a을 취한다 해도 전이확률(P)가 있기 때문에 항상 일정한 위치로 이동하는 것이 아니다. 그래서 v(s')은 어떻게 놔야 되나 고민이 되었다. 업데이트 시점이 s'에 도착한 시점에서 v(s)를 업데이트 하는 것이다...... 나름 단순하게 해결..... 아래는 GPT와 대화를 통해 궁금증을 해결해봤는데 요즘 확실히 똑똑해졌다. 시간차(Temporal Difference, TD) 학습에서 상태 가치 함수 ( V(s) )를 업데이트하..

인공지능/공부 2024.04.23

강화학습 마르코프 프로세스부터 Q-learning, SARSA까지 개념 정리

마르코프 프로세스 MP = s + P 마르코프 리워드 프로세스 MRP = MP + R + 감쇠인자 리턴 : 에피소드가 끝날때 까지의 보상과 각각의 감쇠 인자를 곱한 것 상태 가치 함수 : 현재 상태의 가치 리턴으로 표현될 수 있다. 마르코프 결정 프로세스 MDP = MRP + a 정책 함수 : 현재 상태에서 어떤 액션을 취해야 할지 정해져 있다. 상태 가치 함수 : 현재 상태의 가치로 리턴으로 표현할 수 있고, 다음 액션을 통해 갈 수 있는 상태의 가시함수의 기대값으로 표현 가능하다. 액션 가치 함수 : 현재 상태에서 액션을 취했을 때의 가치이다. 액션을 통해 갈 수 있는 곳의 상태 가치의 기대값으로 작성할 수 있다. 여러분이 작성하신 내용의 기본적인 아이디어는 올바르나, 조금 더 명확하고 정확하게 표현..

인공지능/공부 2024.04.23

벨만 방정식, Q러닝, 반복적 정책 평가, SARSA, TD, MC 대략적 개념

벨만 최적 방정식 (Bellman Optimality Equation) 벨만 최적 방정식은 강화학습에서 최적의 정책을 찾기 위한 재귀적인 관계를 나타냅니다. 이 방정식은 각 상태에서 취할 수 있는 모든 가능한 행동 중에서 가장 높은 기대 리턴을 제공하는 행동을 선택함으로써, 최적의 상태 가치 함수를 계산합니다. 벨만 기대 방정식 (Bellman Expectation Equation) 벨만 기대 방정식은 주어진 정책 (\pi)에 대해 각 상태의 가치 함수를 계산하는 데 사용됩니다. 이 방정식은 선택된 정책 하에서 각 상태의 기대 가치를 계산합니다. 반복적 정책 평가 (Iterative Policy Evaluation) 반복적 정책 평가는 주어진 정책의 가치 함수를 평가하기 위해 사용되며, 정책이 수렴할 때..

인공지능/공부 2024.04.23
728x90
728x90