2024/06/07 2

강화학습 8강 - 가치 기반 에이전트

가치 기반 에이전트는 V와 Q를 만든다. V, Q 계산을 잘해야 최적의 정책을 찾을 수 있다. 가치 기반 : 가치 함수에 기반하여 액션 선택모델 프리상황(v를 사용하기 힘들다)에서는 v를 보고 알 수 없기 때문에 q를 사용한다.정책 기반 : 정책 함수에 기반하여 액션 선택액터 크리틱 : 가치 함수와 정책 함수를 모두 사용한다.액터 : 정책크리틱 : v,q  벨류네트워크는 정책이 고정되어 있을 때 뉴럴넷을 이용하여 학습한다.이렇게 만든 네트워크는 테이블 필요없이 input인 state만 주면 값이 튀어나온다. 업데이트 진행은 MSE를 활용한 경사 하강법과 동일하다. 그러나 강화학습에는 라벨이 없기 때문에 TD나 MC를 활용하여 True 값을 만들어 준다.   딥 Q 러닝가치 기반 에이전트는 명시된 정책이 ..

강화학습 7강 - DEEP RL 개요

테이블 대신에 함수를 사용한다mse를 최소로 하는 선을 찾아서 없는 값들도 유추할 수 있다.일반적인 직선 말고도 다항 함수를 사용하여 데이터 점들을 가장 가깝게 지나가게 할 수 있다.고차함수에 가깝게 갈수록 mse는 떨어지겠지만 노이즈에 민감하게 반응한다 언더 피팅 : 함수의 유연성이 부족하여 주어진 데이터와 에러가 너무 크다.오버 피팅 : 함수가 너무 유연하여 노이즈에 피팅해버리는 것 실험을 통해 주어진 데이터는 노이즈가 껴있기 때문에 적절하게 차수를 선정해야 한다. 강화학습에서 state가 너무 많으면 테이블의 모든 Value를 담을 수 없다. -> Value를 구하는 함수를 학습하자.일반화 : 전체를 다 경험하지 못하더라도 일부 샘플만으로 전체를 추정하는 것함수를 인공 신경망을 통해 복잡하게 만들어..

728x90
728x90