인공지능/공부

강화 학습 중간 정리 2 - MDP planning, MDP X value평가, X planning

이게될까 2024. 4. 20. 22:23
728x90
728x90

여기서 k는 에피소드 단위의 시간!

반복적 정책 평가 - 각 s에 대한 v 반복 계산 가능 
벨만 기대 방정식을 이용해 업데이트를 계속해서 실제 가치를 알 수 있다.

업데이트할 때 k단위의 시간 잘 안보면 무너질 수 있다. ( 행렬을 두고 하나만 업데이트 해야 한다.)

정책 이터레이션 - 정책 평가(v구하기)와 정책 개선(정책 생성)의 반복 -> 수렴
그리디 정책 - 먼 미래를 생각하지 않고 다음 칸의 v가 가장 큰 것을 선택 
v평가(정책 평가) -> 높은 v만 따라가는 정책 만들기(정책 개선) -> 다시 v평가 반복 ----> 수렴
정책 개선 보다는 평가하는데서 많은 연산 수행 -> 평가 간소화 하는 것 가능 (최적 정책 찾는게 목적)
-> 정책 평가를 1단계만 수행하고 정책 개선 - 빠른 정책 평가와 개선 가능 -> 최적 정책 빠른 찾기

최적 v를 알면 최적 정책을 얻을 수 있다.

 

모델 프리 - r과 P를 모르는 상황
MC 학습의 특성 - 확률을 몰라도 여러번 샘플링하여 가늠하는 기법 (대수의 법칙 가능)
v를 구할 때 실제 MDP를 모르더라도 s에서 여러번 G를 구한 후 평균 구해서 계산 가능

몬테 카를로 학습 - r과 P를 몰라도 N(방문 횟수) V(리턴의 총합 기록)을 통해 학습한다.
전부 경험(에피소드 종료 후) 후 역으로 계산하여 작성한다.

v 계산은 수 많은 에피소드 경험 후 V를 N으로 나눠서 사용한다. = 몬테카를로 방법론

알파(기존 값에 얼마나 변화를 줄 거냐)를 사용하여 조금씩 업데이트 하는 방법도 있다.

제한점 - 에피소드가 끝난 후에 업데이트 해야 한다 == 적용할 수 있는 환경이 제한적
-> 에피소드가 끝나기 전에 업데이트 하자!== TD

TD는 각각 s 변화가 일어나자 마자 테이블 값을 업데이트 한다.

Episodic MDP -  종료 상태가 있는 경우 -> MC, TD 모두 가능
Non - Episodic MDP - 종료 상태 없이 하나의 에피 소드가 무한히 이어지는 MDP -> TD만 가능

편향성 - bias : 어디에 치우치지 않았나 (잘못된 길로 빠질 수 있나)
MC - 가치 함수의 정의 : 여러 개의 샘플에 대한 평균을 구하기 때문에 편향이 적다
TD - 벨만 기대 방정식 : 바로바로 이전 값에 대해 업데이트 하기 때문에 편향이 크다. 

분산 - Variance : 변동성이 큰가
MC - 에피소드가 끝나야만 하기 때문에 다양한 값 가질 수 있다. - 분산이 크다
TD - 한 샘플만 보기 때문에 분산이 작다.

n step TD

람다가 평균을 만드는 역할을 한다.

 

 

728x90