인공지능/공부

강화학습 중간고사

이게될까 2024. 4. 24. 13:35
728x90
728x90

위치가 11일 때, 상태 가치를 정책에 따라 구하고, 두 가치의 차를 구하라.
감쇠인자는 0이다.

감쇠인자가 0이면 당장 받는 보상의 기대값만 신경쓰면 되니까 둘다 -1이고, 차는 0 아닌가...?

 

아래 그림을 보고 q(s,a1)를 구하라 

감쇠인자를 안알려주길래 감쇠인자 그대로 적었다가 1로 하라고 해서 이대로 계산했습니다.

 

v*구하기

2입니당

 

마르코프 상태에 대한 빈칸 문제 

마르코프가 빈칸이었습니다.

 

그리고 모든 상황이 마르코프 상황인 것은 아니지만 모델링은 가능하다가 O,X문제로 나왔었습니다. O

 

마르코프 프로세스는 상태 집합, 보상함수, 감쇠인자로 이루어져 있다. X

P가 빠졌습니다.

 

빈칸 문제 : 일정 시점부터 에피소드가 끝날 때 까지의 받은 보상의 합은 ( 리턴 )이다. 

 

감쇠 인자가 0이라면 현재의 보상을 크게 바라본다. O

 

MDP를 모른다는 것은 보상함수와 (전이 확률)을 모른다는 것이다.

 

MC는 에피소드가 종료되어야 학습하고, TD는 종료되지 않아도 학습할 수 있따 O

 

 

n step td에서 n이 작아질수록 분산이 커진다 X - 작아진다.

 

SARSA 는 MC와 유사하고 Q-learning은 TD와 유사하다 X - SARSA도 TD다.

 

off policy 빈칸문제

 

끝!

728x90