728x90
728x90
벨만 기대 방정식
벨만 최적 방정식
정책 이터레이션
벨류 이터레이션
몬테카를로, TD MDP O
MDP X
728x90
'인공지능 > 공부' 카테고리의 다른 글
강화학습 중간고사 (0) | 2024.04.24 |
---|---|
강화학습 - TD에서 s'을 언제 업데이트 해야 할까? (0) | 2024.04.23 |
강화학습 마르코프 프로세스부터 Q-learning, SARSA까지 개념 정리 (0) | 2024.04.23 |
벨만 방정식, Q러닝, 반복적 정책 평가, SARSA, TD, MC 대략적 개념 (0) | 2024.04.23 |
강화학습 퀴즈 - MDP, 벨만 방정식, 플래닝, 정책 평가, 정책 개선... with ChatGpt (0) | 2024.04.22 |