인공지능/공부

강화학습 암기할 내용들

이게될까 2024. 4. 23. 19:41
728x90
728x90

벨만 기대 방정식

벨만 최적 방정식

정책 이터레이션

벨류 이터레이션

 

몬테카를로, TD MDP O

몬테카를로 계산법
n-step TD

MDP X

MC 컨트롤

 

728x90