강화학습 중간고사

인공지능/공부

이게될까 2024. 4. 24. 13:35

728x90

위치가 11일 때, 상태 가치를 정책에 따라 구하고, 두 가치의 차를 구하라.
감쇠인자는 0이다.

감쇠인자가 0이면 당장 받는 보상의 기대값만 신경쓰면 되니까 둘다 -1이고, 차는 0 아닌가...?

아래 그림을 보고 q(s,a1)를 구하라

감쇠인자를 안알려주길래 감쇠인자 그대로 적었다가 1로 하라고 해서 이대로 계산했습니다.

v*구하기

2입니당

마르코프 상태에 대한 빈칸 문제

마르코프가 빈칸이었습니다.

그리고 모든 상황이 마르코프 상황인 것은 아니지만 모델링은 가능하다가 O,X문제로 나왔었습니다. O

마르코프 프로세스는 상태 집합, 보상함수, 감쇠인자로 이루어져 있다. X

P가 빠졌습니다.

빈칸 문제 : 일정 시점부터 에피소드가 끝날 때 까지의 받은 보상의 합은 ( 리턴 )이다.

감쇠 인자가 0이라면 현재의 보상을 크게 바라본다. O

MDP를 모른다는 것은 보상함수와 (전이 확률)을 모른다는 것이다.

MC는 에피소드가 종료되어야 학습하고, TD는 종료되지 않아도 학습할 수 있따 O

n step td에서 n이 작아질수록 분산이 커진다 X - 작아진다.

SARSA 는 MC와 유사하고 Q-learning은 TD와 유사하다 X - SARSA도 TD다.

off policy 빈칸문제

끝!

생성형 인공지능 입문 중간고사 (0)	2024.04.24
딥러닝 개론 중간고사 대비 문제 - backpropagation, convolution, optimization (0)	2024.04.24
강화학습 - TD에서 s'을 언제 업데이트 해야 할까? (0)	2024.04.23
강화학습 암기할 내용들 (0)	2024.04.23
강화학습 마르코프 프로세스부터 Q-learning, SARSA까지 개념 정리 (0)	2024.04.23

NLP, AI, XAI에 관심있는 공대생의 일기장...?

공대생 도전 일지