반응형

2024/04 152

딥러닝 개론 중간고사 대비 문제 - backpropagation, convolution, optimization

PDF 파일을 기반으로 다양한 유형의 딥러닝 문제를 만들어보겠습니다. 이는 해당 주제에 대한 이해를 평가하고 학습을 돕기 위한 것입니다.1. OX 문제문제: 딥러닝은 머신러닝과는 다르게 항상 인간의 개입 없이 데이터의 특징을 스스로 학습할 수 있다. (O/X)정답: X해설: 딥러닝은 인간의 뇌를 모방한 신경망 구조를 사용하여 복잡한 데이터의 패턴을 학습하지만, 특정 애플리케이션에서는 인간의 개입이 필요할 수 있습니다. 예를 들어, 레이블링 작업이나 데이터 전처리 과정에서는 인간의 도움이 필요할 수 있습니다.2. 서술형 문제문제: 머신러닝과 딥러닝의 주요 차이점 두 가지를 설명하시오.정답:구조적 차이: 머신러닝은 간단한 데이터 패턴 인식에 종종 사용되는 반면, 딥러닝은 인간의 뇌를 모방한 ..

인공지능/공부 2024.04.24

강화학습 중간고사

위치가 11일 때, 상태 가치를 정책에 따라 구하고, 두 가치의 차를 구하라.감쇠인자는 0이다.감쇠인자가 0이면 당장 받는 보상의 기대값만 신경쓰면 되니까 둘다 -1이고, 차는 0 아닌가...? 아래 그림을 보고 q(s,a1)를 구하라 감쇠인자를 안알려주길래 감쇠인자 그대로 적었다가 1로 하라고 해서 이대로 계산했습니다. v*구하기2입니당 마르코프 상태에 대한 빈칸 문제 마르코프가 빈칸이었습니다. 그리고 모든 상황이 마르코프 상황인 것은 아니지만 모델링은 가능하다가 O,X문제로 나왔었습니다. O 마르코프 프로세스는 상태 집합, 보상함수, 감쇠인자로 이루어져 있다. XP가 빠졌습니다. 빈칸 문제 : 일정 시점부터 에피소드가 끝날 때 까지의 받은 보상의 합은 ( 리턴..

인공지능/공부 2024.04.24

강화학습 - TD에서 s'을 언제 업데이트 해야 할까?

MC에서 에피소드가 끝나야만 업데이트 하는 조건 때문에 끝이 없구나 너무 긴 에피소드에 대해서는 대안이 필요했다. TD는 '추측을 추측으로 업데이트하자'로 나온 종료하지 않은 MDP에서 학습 가능한 방법이다. TD에서는 s'으로 s에서 액션을 진행하여 상태가 변화하였다. 그런데 a을 취한다 해도 전이확률(P)가 있기 때문에 항상 일정한 위치로 이동하는 것이 아니다. 그래서 v(s')은 어떻게 놔야 되나 고민이 되었다. 업데이트 시점이 s'에 도착한 시점에서 v(s)를 업데이트 하는 것이다...... 나름 단순하게 해결..... 아래는 GPT와 대화를 통해 궁금증을 해결해봤는데 요즘 확실히 똑똑해졌다. 시간차(Temporal Difference, TD) 학습에서 상태 가치 함수 ( V(s) )를 업데이트하..

인공지능/공부 2024.04.23

강화학습 마르코프 프로세스부터 Q-learning, SARSA까지 개념 정리

마르코프 프로세스 MP = s + P 마르코프 리워드 프로세스 MRP = MP + R + 감쇠인자 리턴 : 에피소드가 끝날때 까지의 보상과 각각의 감쇠 인자를 곱한 것 상태 가치 함수 : 현재 상태의 가치 리턴으로 표현될 수 있다. 마르코프 결정 프로세스 MDP = MRP + a 정책 함수 : 현재 상태에서 어떤 액션을 취해야 할지 정해져 있다. 상태 가치 함수 : 현재 상태의 가치로 리턴으로 표현할 수 있고, 다음 액션을 통해 갈 수 있는 상태의 가시함수의 기대값으로 표현 가능하다. 액션 가치 함수 : 현재 상태에서 액션을 취했을 때의 가치이다. 액션을 통해 갈 수 있는 곳의 상태 가치의 기대값으로 작성할 수 있다. 여러분이 작성하신 내용의 기본적인 아이디어는 올바르나, 조금 더 명확하고 정확하게 표현..

인공지능/공부 2024.04.23

벨만 방정식, Q러닝, 반복적 정책 평가, SARSA, TD, MC 대략적 개념

벨만 최적 방정식 (Bellman Optimality Equation) 벨만 최적 방정식은 강화학습에서 최적의 정책을 찾기 위한 재귀적인 관계를 나타냅니다. 이 방정식은 각 상태에서 취할 수 있는 모든 가능한 행동 중에서 가장 높은 기대 리턴을 제공하는 행동을 선택함으로써, 최적의 상태 가치 함수를 계산합니다. 벨만 기대 방정식 (Bellman Expectation Equation) 벨만 기대 방정식은 주어진 정책 (\pi)에 대해 각 상태의 가치 함수를 계산하는 데 사용됩니다. 이 방정식은 선택된 정책 하에서 각 상태의 기대 가치를 계산합니다. 반복적 정책 평가 (Iterative Policy Evaluation) 반복적 정책 평가는 주어진 정책의 가치 함수를 평가하기 위해 사용되며, 정책이 수렴할 때..

인공지능/공부 2024.04.23

강화학습 퀴즈 - MDP, 벨만 방정식, 플래닝, 정책 평가, 정책 개선... with ChatGpt

기반하여 강화학습 주제에 대한 다양한 유형의 문제를 만들었습니다. 각 문제는 주어진 내용에 기반하여 답과 해설을 포함합니다. OX 문제 강화학습은 지도학습과 같이 지도자의 도움을 받아 학습한다. (O/X) 답: X 해설: 강화학습은 지도자의 도움 없이, 주로 시행착오를 통해 스스로 학습하는 방식입니다. 서술형 문제 강화학습에서의 '에이전트'와 '환경'을 설명하시오. 답: 에이전트는 강화학습 과정에서 학습을 담당하는 주체로, 특정 상황에서 어떤 행동을 결정하고 실행합니다. 환경은 에이전트를 제외한 모든 요소로, 에이전트의 행동에 반응하여 상태 변화를 일으키고 에이전트에게 그 결과를 제공합니다. 빈칸 채우기 강화학습의 목적은 순차적 의사결정 과정에서 받은 보상의 **__을 최대화하는 것이다.** 답: 누적합..

인공지능/공부 2024.04.22

딥러닝개론 정리 2 - Convolution, CNN, 합성곱

공간 데이터(이미지)를 FCN하기 위해 1차원으로 변환하는 순간 형상정보가 분산 되기 때문에 패턴 인식이 어렵다. 또한 파라미터의 개수, 연산량의 기하급수적으로 증가하기 때문에 이미지 데이터 처리에 FCN은 별로다 시신경 시스템을 모방하였다. -> 계층적으로 합성곱을 진행한다. 입력 데이터 - Width * Height * Depth(채널) 수용영역 - filter의 크기에 따라 달라진다. activation map = convolution연산의 결과로 만들어지는 이미지 feature map = 합성곱 연산 결과만 한것 (activation function x) 서브 샘플링 - 데이터를 낮은 빈도로 샘플링 했을 때 샘플을 근사하는 연산 데이터가 이미지면 이미지 크기를 줄이는 연산이 되어 다운 샘플링이라고..

인공지능/공부 2024.04.22

딥러닝개론 정리 1 - 머신러닝, 딥러닝, backpropagation, 잡음 주입, 정규화, 규제화

인공지능 - 인간의 지능을 모방하여 사람이 하는 일을 기계가 할 수 있도록 하는 기술 머신러닝 - 데이터의 특징을 스스로 판별하지 못한다. 딥러닝 - 데이터의 특징을 스스로 분석하여 답을 찾는다. 비정형 데이터 전부 가능 feature extraction 피쳐 추출- 데이터 별로 어떤 특징을 가지고 있는지 찾아내고, 그것을 토대로 데이터를 벡터로 변환하는 작업 데이터셋 - train + validation(검증 용이므로 데이터가 충분치 않다면 사용 X) + test 배치 크기 * iteration/epoch = 데이터 셋 크기 지도 학습 - 정답을 주고, 오차를 통해 학습 비지도 학습 - 정답 없이 비슷한 데이터를 클러스트링(범주화)하여 예측하는 방법 강화 학습 - 경험을 토대로 보상을 극대화 한다. t..

인공지능/공부 2024.04.22

강화 학습 중간 정리 4 - MC, 벨만 방정식, planning, 최적 정책 찾기, value 평가

순차적 의사 결정 문제 해결 방식 - 시간 순서대로 주어진 상황에서 목적을 이루기 위해 행동을 하는 것의 반복 마르코프 성질 - 미래 (t+1)은 오로지 현재(t)에 의해 결정된다. 마르코프 리워드 프로세스 - 마르코프 프로세스 + 보상 리턴(G, 에피소드가 끝날 때 까지 보상의 합)의 최대화 v - s에서 시작하여 G의 기대값 측정 상태 가치 함수v - s의 v 알기 - s에서 G 기댓값 마르코프 결정 프로세스 - MRP + action 상태 가치 함수 v - 정책(a를 정해준다)에 따라 G가 달라진다. 액젼 가치 함수 q - s에서 a에 대한 평가 벨만 방정식 - 위의 v와 q를 식으로 작성한것 벨만 기대 방정식 - v와 q를 구하는 법 v(s) = E(G) = E(R + v(s)) - s가 다른 시..

인공지능/공부 2024.04.22
728x90
728x90