여기서 k는 에피소드 단위의 시간! 반복적 정책 평가 - 각 s에 대한 v 반복 계산 가능 벨만 기대 방정식을 이용해 업데이트를 계속해서 실제 가치를 알 수 있다. 업데이트할 때 k단위의 시간 잘 안보면 무너질 수 있다. ( 행렬을 두고 하나만 업데이트 해야 한다.) 정책 이터레이션 - 정책 평가(v구하기)와 정책 개선(정책 생성)의 반복 -> 수렴 그리디 정책 - 먼 미래를 생각하지 않고 다음 칸의 v가 가장 큰 것을 선택 v평가(정책 평가) -> 높은 v만 따라가는 정책 만들기(정책 개선) -> 다시 v평가 반복 ----> 수렴 정책 개선 보다는 평가하는데서 많은 연산 수행 -> 평가 간소화 하는 것 가능 (최적 정책 찾는게 목적) -> 정책 평가를 1단계만 수행하고 정책 개선 - 빠른 정책 평가와 ..