MC에서 에피소드가 끝나야만 업데이트 하는 조건 때문에 끝이 없구나 너무 긴 에피소드에 대해서는 대안이 필요했다. TD는 '추측을 추측으로 업데이트하자'로 나온 종료하지 않은 MDP에서 학습 가능한 방법이다. TD에서는 s'으로 s에서 액션을 진행하여 상태가 변화하였다. 그런데 a을 취한다 해도 전이확률(P)가 있기 때문에 항상 일정한 위치로 이동하는 것이 아니다. 그래서 v(s')은 어떻게 놔야 되나 고민이 되었다. 업데이트 시점이 s'에 도착한 시점에서 v(s)를 업데이트 하는 것이다...... 나름 단순하게 해결..... 아래는 GPT와 대화를 통해 궁금증을 해결해봤는데 요즘 확실히 똑똑해졌다. 시간차(Temporal Difference, TD) 학습에서 상태 가치 함수 ( V(s) )를 업데이트하..