반응형

2024/04/22 4

강화학습 퀴즈 - MDP, 벨만 방정식, 플래닝, 정책 평가, 정책 개선... with ChatGpt

기반하여 강화학습 주제에 대한 다양한 유형의 문제를 만들었습니다. 각 문제는 주어진 내용에 기반하여 답과 해설을 포함합니다. OX 문제 강화학습은 지도학습과 같이 지도자의 도움을 받아 학습한다. (O/X) 답: X 해설: 강화학습은 지도자의 도움 없이, 주로 시행착오를 통해 스스로 학습하는 방식입니다. 서술형 문제 강화학습에서의 '에이전트'와 '환경'을 설명하시오. 답: 에이전트는 강화학습 과정에서 학습을 담당하는 주체로, 특정 상황에서 어떤 행동을 결정하고 실행합니다. 환경은 에이전트를 제외한 모든 요소로, 에이전트의 행동에 반응하여 상태 변화를 일으키고 에이전트에게 그 결과를 제공합니다. 빈칸 채우기 강화학습의 목적은 순차적 의사결정 과정에서 받은 보상의 **__을 최대화하는 것이다.** 답: 누적합..

인공지능/공부 2024.04.22

딥러닝개론 정리 2 - Convolution, CNN, 합성곱

공간 데이터(이미지)를 FCN하기 위해 1차원으로 변환하는 순간 형상정보가 분산 되기 때문에 패턴 인식이 어렵다. 또한 파라미터의 개수, 연산량의 기하급수적으로 증가하기 때문에 이미지 데이터 처리에 FCN은 별로다 시신경 시스템을 모방하였다. -> 계층적으로 합성곱을 진행한다. 입력 데이터 - Width * Height * Depth(채널) 수용영역 - filter의 크기에 따라 달라진다. activation map = convolution연산의 결과로 만들어지는 이미지 feature map = 합성곱 연산 결과만 한것 (activation function x) 서브 샘플링 - 데이터를 낮은 빈도로 샘플링 했을 때 샘플을 근사하는 연산 데이터가 이미지면 이미지 크기를 줄이는 연산이 되어 다운 샘플링이라고..

인공지능/공부 2024.04.22

딥러닝개론 정리 1 - 머신러닝, 딥러닝, backpropagation, 잡음 주입, 정규화, 규제화

인공지능 - 인간의 지능을 모방하여 사람이 하는 일을 기계가 할 수 있도록 하는 기술 머신러닝 - 데이터의 특징을 스스로 판별하지 못한다. 딥러닝 - 데이터의 특징을 스스로 분석하여 답을 찾는다. 비정형 데이터 전부 가능 feature extraction 피쳐 추출- 데이터 별로 어떤 특징을 가지고 있는지 찾아내고, 그것을 토대로 데이터를 벡터로 변환하는 작업 데이터셋 - train + validation(검증 용이므로 데이터가 충분치 않다면 사용 X) + test 배치 크기 * iteration/epoch = 데이터 셋 크기 지도 학습 - 정답을 주고, 오차를 통해 학습 비지도 학습 - 정답 없이 비슷한 데이터를 클러스트링(범주화)하여 예측하는 방법 강화 학습 - 경험을 토대로 보상을 극대화 한다. t..

인공지능/공부 2024.04.22

강화 학습 중간 정리 4 - MC, 벨만 방정식, planning, 최적 정책 찾기, value 평가

순차적 의사 결정 문제 해결 방식 - 시간 순서대로 주어진 상황에서 목적을 이루기 위해 행동을 하는 것의 반복 마르코프 성질 - 미래 (t+1)은 오로지 현재(t)에 의해 결정된다. 마르코프 리워드 프로세스 - 마르코프 프로세스 + 보상 리턴(G, 에피소드가 끝날 때 까지 보상의 합)의 최대화 v - s에서 시작하여 G의 기대값 측정 상태 가치 함수v - s의 v 알기 - s에서 G 기댓값 마르코프 결정 프로세스 - MRP + action 상태 가치 함수 v - 정책(a를 정해준다)에 따라 G가 달라진다. 액젼 가치 함수 q - s에서 a에 대한 평가 벨만 방정식 - 위의 v와 q를 식으로 작성한것 벨만 기대 방정식 - v와 q를 구하는 법 v(s) = E(G) = E(R + v(s)) - s가 다른 시..

인공지능/공부 2024.04.22
728x90
728x90