인공지능/공부

강화학습 정리 - 1강 강화학습이란?

이게될까 2024. 4. 20. 15:51
728x90
728x90

지도학습과 강화학습

 

순차적 의사결정 문제

 

보상

지도 학습 - 정답
비지도 학습 - 목적 함수 
강화 학습 - 보상의 총합 최대화 -> 보상이 학습을 가능하게 해준다.

누적합 - 시간의 흐름에 따라 보상이 쌓인다.
끝나면 그게 하나의 에피소드이다.

 

에이전트

에이전트 - 게이머, 사람

 

환경

환경 전체를 이해하고 모델링 할 수 있다. -> 굳이 강화학습 사용하지 않아도 된다.
환경이 너무 복잡해서 일부만 쓴다. -> state, 간소화해서 모델링 한다.

728x90