2024/06/08 3

강화학습 11강 - 강화학습 실습 예제

전이 확률이 1이다 == action과 다음 state과 같다. Frozen Lake에서 랜덤만 넣으니 학습이 잘 되지않닸다.-> 경험을 다양하게 시켜보자 == max를 뽑고 입실론을 넣어주자 : 쪼금 늘었다.-> 에피소드를 진행할수록 입실론을 줄여보자 - 안좋아졌다. => 적당히 남겨놓고 경험하게 둬야 한다. -> 이전 Q와 알파 Q로 나누자 - 알파를 조절하면 정보의 반영 정보 조절 가능하다 - 파라미터 추가로 성능 향상 -> 입실론을 빼고 Q에 랜덤 노이즈를 더해줬다. == 랜덤성이 부여되었다.(Q값이 큰 차이가 없으면 다양한 경험이 가능하다.) - 가능성이 있는 곳을 선택하여 안 간 곳이 사라지고, 성능이 향상되었다.  더보기11. 강화학습 실습 예제11.1 Escape Room방탈출 예제:5개의..

강화학습 10장 - 알파고와 MCTS

알파고는 2016년 3월 이세돌과 바둑을 둔 AI로 학습단계와 플래닝 단계가 나뉘어 있다. 학습 단계 : 사용될 재료를 미리 만들어 둔다. 플래닝 단계 : 대국 도중 실시간으로 이루어지며 바둑알을 어디에 놓을지 고민하는 과정으로 MCTS를 사용하였다.MCTS(Monte Carlo Tree Search): 예측을 통해 끝까지 가보고 확률을 낸다.학습이 모든 경우의 수를 파악한 것은 아니기 때문에 플래닝 단계를 활용하여 학습의 불안정성을 제거하고, 이후의 판세를 판단할 수 있다.학습단계에서는 4개의 네트워크를 학습한다. 정책 네트워크 : sl(기보를 이용한 지도학습), roll(MCTS를 위한 지도학습), rl(스스로 대국하며 강화학습한 정책)가치 네트워크 : rl 지도학습 정책 sl19*19 convolu..

강화학습 9장 - 정책 기반 에이전트

가치 기반 에이전트가 액션을 선택하는 방식은 결정론적이다. == 모든 state의 각 상태에서 선택하는 action이 변하지 않는다.정책 기반 에이전트는 가치 기반 에이전트에 비해 좀 더 유연하다.action 공간이 연속적인 경우 가치 기반 에이전트는 q(s,a)에서 최대가 되는 a를 잘 찾기 힘들다.정책 기반 에이전트는 파이가 있기 때문에 액션을 바로 뽑을 수 있다.정책 기반 에이전트는 확률적 정책(state에서 action을 고를 확률)이다.여기선 최대화를 해야 하기 때문에 +를 사용한다.어떤 행동이 가장 좋은지에 대해 기준이 필요하다 => 기준 == 리턴 (정답은 아니므로 비지도 학습) => 정책함수 학습 가능딱 한스텝만 진행하는 MDO이다.모델 프리상황에서는 r과 P를 알 수 없다.샘플 기반 방법..

728x90
728x90