전이 확률이 1이다 == action과 다음 state과 같다. Frozen Lake에서 랜덤만 넣으니 학습이 잘 되지않닸다.-> 경험을 다양하게 시켜보자 == max를 뽑고 입실론을 넣어주자 : 쪼금 늘었다.-> 에피소드를 진행할수록 입실론을 줄여보자 - 안좋아졌다. => 적당히 남겨놓고 경험하게 둬야 한다. -> 이전 Q와 알파 Q로 나누자 - 알파를 조절하면 정보의 반영 정보 조절 가능하다 - 파라미터 추가로 성능 향상 -> 입실론을 빼고 Q에 랜덤 노이즈를 더해줬다. == 랜덤성이 부여되었다.(Q값이 큰 차이가 없으면 다양한 경험이 가능하다.) - 가능성이 있는 곳을 선택하여 안 간 곳이 사라지고, 성능이 향상되었다. 더보기11. 강화학습 실습 예제11.1 Escape Room방탈출 예제:5개의..