강화 학습 정리 - 6장 MDP를 모를 때 최고의 정책 찾기

인공지능/공부

강화 학습 정리 - 6장 MDP를 모를 때 최고의 정책 찾기

이게될까 2024. 4. 20. 19:53

728x90

정책 이터레이션이 뭐였지?

정책 평가와 정책 개선을 번갈아 수행하여 정책이 수렴할 때 까지 반복하는 방법론

P를 모른다 == 내가 어떤 S로 갈 지 모른다.

액션과 value의 매칭이 안된다.

여기서 한번 간 길을 계속 가게 될 수 있어 최적 값이 아니거나 길을 못 찾을 수도 있어 랜덤값을 추가한다.

랜덤 값으로 인해 최적길을 찾아주고, P를 모르기 때문에 다양한 경험을 한다.

학습이 진행될 수록 점점 정확해지기 때문에 그 땐 없앤다.

Max가 되는 a를 선택하는게 일반적인 정책

BUT 최적의 정책인지 확실하지 않다.

리워드가 생기기 시작하면 더 따라가기 때문에 정책 정의 할 때 랜덤 값 추가 == 입실론 그리디!

Q를 계속해서 업데이트 -> max Q 값은?

Q 테이블 - 모든 s와 a에 대해 다 들어있음

MDP가 모를 때 정책을 찾기 위해 Q를 사용하기 시작

Q를 사용하는 방법 MC와 TD

TD - 살사

MDP를 모른다
S에서 특정 A를 취했을 때 리워드이다.
여기가 더 커야한다. BUT 상수 하나로 되어있다. (4방향 다 -1이다)
그러나 한 개로 둔다.
그리드 월드이기 때문이다.
Rs = E(Rsa) - 다 동일하게 -1이기 때문에 성립한다.
모든 액션에 대한 평균값!
V(s) = E(Q(s,a))와 마찬가지

V에선 s에 대한 리워드

Q에선 s에서 a를 취했을 때 리워드

타겟 - 기존의 정책을 사용하겠다.
행동 - (정책을 따라)이동하면서 v와 q를 업데이트하며 정책을 찾겠다.

이 전의 방식 - 정책에 의존하여 경험

벨만 기대 방정식 - 정책에 따라 움직이면서 계산
이전 방식 - 평균을 사용
현재 - MAX

G - 정책이 정의가 되어있다 -> a가 정해져 있다.

벨만 최적을 쓴다 - 가장 좋은 Q값을 사용한다.
이전과의 차이점 - 그냥 찾는 것이 아니라 정책을 따라 이동하면서 찾는다.
허용된 경우의 수가 적을 수 있다.
TD - 완벽하지 않은 상황에서 max를 찾는게 맞냐!
Q러닝 - 그래서 전체 중에 max를 찾는다.

식의 모양이 조금 다르다
살사 - 파이 정책을 따르면서 맥스(혹은 입실론 만큼의 랜덤)가 되는 q를 가져와 찾는다.
Q러닝 - q 업데이트 하는 과정에서 파이를 무시하고 전체중에 맥스를 찾자!

safe path - 마이너스가 크게 쌓인다 - Sarsa
optimal path - 최단 길을 찾으나 빠질 확률이 크다 - Q
살사는 안정적인 길을 선호한다.
Q는 맥스를 가기 때문의 최적 길을 선호한다.

저작자표시 (새창열림)

'인공지능 > 공부' 카테고리의 다른 글

강화 학습 중간 정리 2 - MDP planning, MDP X value평가, X planning (0)	2024.04.20
강화 학습 중간 정리 1 - MC, 마르코프 프로세스, MDP, MRP, 벨만 방정식 (1)	2024.04.20
강화 학습 정리 5강 - MDP를 모를 때 밸류 평가하기 (34)	2024.04.20
강화 학습 정리 - 4강 MDP를 알 때의 플래닝 (1)	2024.04.20
강화 학습 정리 - 3강 벨만 방정식 (1)	2024.04.20

현재글강화 학습 정리 - 6장 MDP를 모를 때 최고의 정책 찾기

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

공대생 도전 일지