Value optimization 방식 Neural Fitted Q Iteration (NFQ)신경망을 활용하여 Q 함수를 근사한다. 기본 뉴럴넷 형식이고, Q를 뉴럴넷으로 구현하였다.장 : 비선형 함수 근사를 통해 복잡한 환경에서도 사용 가능하다.단 : 데이터 활용 측면에서 효율성 떨어짐 Deep Q Learning (DQN)심층 신경망을 활용하여 Q 함수를 근사한다.장 : replay memory를 사용하여 샘플 효율성을 높였다.단 : 불안정한 학습과 과적합 문제가 발생 가능하다. Q를 뉴럴넷을 통해 구한다. == 학습이 불안정해지고, 오버피팅이 발생할 수 있다.데이터 셋이 많을 수록 좋아진다. -> 데이터 샘플이 편향성을 가지지 않고, 다양한 형태를 가져야 한다 == Q를 학습하는데 편향이 될 수 ..