반응형

인공지능/공부 281

딥러닝 개론 중간고사

기억이 나는 것만 작성..OX 문제 - 10문제batch normalization은 활성화 함수 전에 해도 되고, 지나고 해도 된다.- O오버 피팅을 해결하기 위해서는 히든 레이어를 추가하고, 노드를 늘린다 - X점별 Convolution을 사용하면 activation map의 사이즈가 그대로이다. - 사이즈에서 채널을 포함 시켜야 할지 아닐지 고민하다가 사이즈는 포함 안될거 같아서 O...그룹 Convolution에선 GPU를 따로 할당해야한다. - AlexNet이 GPU 각각 할당이 필요하지 그룹 콘볼루션이 무조건 GPU따로 할당은 아닐꺼라 생각해서 X... backpropagation 손 계산인데 그냥 개념만 알면 풀 수 있도록 나왔음 인풋 주어주고, parameter랑 bias 맞추기  activ..

인공지능/공부 2024.04.25

딥러닝개론 중간고사 예측

이번엔 역순으로 Convolution부터 진행하겠씁니다... 첫 단원부터 보려니까 너무 지겨웟Convolution만해도 나올게 너무 많아보이는데....max 위치만 살려서 보내고 아니었던 곳에는 0을 보냅니다. 그럼 그쪽은 다 업데이트가 안되겠지만 뭐 결과에 영향도 못 줬으니까요,...이 그림은 컨볼루션 신경망에서의 역전파(backpropagation) 단계를 시각화한 것입니다. 컨볼루션 신경망의 학습 과정에서 가중치(weights)를 업데이트하기 위해, 그라디언트(오차 신호)를 사용하는 방법을 보여주고 있습니다. 각 단계를 상세하게 설명해보겠습니다.순전파 (Forward Pass)컨볼루션 레이어: 입력 (a)에 컨볼루션 커널(필터)를 적용하여 활성화 맵(Activation map)을 생..

인공지능/공부 2024.04.24

생성형 인공지능 입문 중간고사

언어 모델을 생성할 때 필요한 기본 단계 중 하나가 아닌 것은 무엇입니까?하나를 선택하세요.a. 데이터셋 선택b. 입력 텍스트 사전 처리c. 모델 평가d. 인터페이스 디자인인터페이스는..... 일단 언어모델 다 만들고 합시다.언어 모델을 생성할 때 기본적으로 필요한 단계에는 데이터셋 선택, 입력 텍스트의 사전 처리, 그리고 모델 평가가 포함됩니다. 이 세 가지 단계는 모델이 언어를 어떻게 이해하고 생성할지를 결정하는 데 중요한 역할을 합니다.a. 데이터셋 선택: 모델이 학습할 데이터를 결정합니다. 이 단계에서는 대량의 텍스트 데이터를 수집하고, 해당 데이터가 모델의 용도에 적합한지 평가합니다.b. 입력 텍스트 사전 처리: 텍스트를 모델이 처리할 수 있는 형태로 변환합니다. 이 과정에는 ..

인공지능/공부 2024.04.24

딥러닝 개론 중간고사 대비 문제 - backpropagation, convolution, optimization

PDF 파일을 기반으로 다양한 유형의 딥러닝 문제를 만들어보겠습니다. 이는 해당 주제에 대한 이해를 평가하고 학습을 돕기 위한 것입니다.1. OX 문제문제: 딥러닝은 머신러닝과는 다르게 항상 인간의 개입 없이 데이터의 특징을 스스로 학습할 수 있다. (O/X)정답: X해설: 딥러닝은 인간의 뇌를 모방한 신경망 구조를 사용하여 복잡한 데이터의 패턴을 학습하지만, 특정 애플리케이션에서는 인간의 개입이 필요할 수 있습니다. 예를 들어, 레이블링 작업이나 데이터 전처리 과정에서는 인간의 도움이 필요할 수 있습니다.2. 서술형 문제문제: 머신러닝과 딥러닝의 주요 차이점 두 가지를 설명하시오.정답:구조적 차이: 머신러닝은 간단한 데이터 패턴 인식에 종종 사용되는 반면, 딥러닝은 인간의 뇌를 모방한 ..

인공지능/공부 2024.04.24

강화학습 중간고사

위치가 11일 때, 상태 가치를 정책에 따라 구하고, 두 가치의 차를 구하라.감쇠인자는 0이다.감쇠인자가 0이면 당장 받는 보상의 기대값만 신경쓰면 되니까 둘다 -1이고, 차는 0 아닌가...? 아래 그림을 보고 q(s,a1)를 구하라 감쇠인자를 안알려주길래 감쇠인자 그대로 적었다가 1로 하라고 해서 이대로 계산했습니다. v*구하기2입니당 마르코프 상태에 대한 빈칸 문제 마르코프가 빈칸이었습니다. 그리고 모든 상황이 마르코프 상황인 것은 아니지만 모델링은 가능하다가 O,X문제로 나왔었습니다. O 마르코프 프로세스는 상태 집합, 보상함수, 감쇠인자로 이루어져 있다. XP가 빠졌습니다. 빈칸 문제 : 일정 시점부터 에피소드가 끝날 때 까지의 받은 보상의 합은 ( 리턴..

인공지능/공부 2024.04.24

강화학습 - TD에서 s'을 언제 업데이트 해야 할까?

MC에서 에피소드가 끝나야만 업데이트 하는 조건 때문에 끝이 없구나 너무 긴 에피소드에 대해서는 대안이 필요했다. TD는 '추측을 추측으로 업데이트하자'로 나온 종료하지 않은 MDP에서 학습 가능한 방법이다. TD에서는 s'으로 s에서 액션을 진행하여 상태가 변화하였다. 그런데 a을 취한다 해도 전이확률(P)가 있기 때문에 항상 일정한 위치로 이동하는 것이 아니다. 그래서 v(s')은 어떻게 놔야 되나 고민이 되었다. 업데이트 시점이 s'에 도착한 시점에서 v(s)를 업데이트 하는 것이다...... 나름 단순하게 해결..... 아래는 GPT와 대화를 통해 궁금증을 해결해봤는데 요즘 확실히 똑똑해졌다. 시간차(Temporal Difference, TD) 학습에서 상태 가치 함수 ( V(s) )를 업데이트하..

인공지능/공부 2024.04.23

강화학습 마르코프 프로세스부터 Q-learning, SARSA까지 개념 정리

마르코프 프로세스 MP = s + P 마르코프 리워드 프로세스 MRP = MP + R + 감쇠인자 리턴 : 에피소드가 끝날때 까지의 보상과 각각의 감쇠 인자를 곱한 것 상태 가치 함수 : 현재 상태의 가치 리턴으로 표현될 수 있다. 마르코프 결정 프로세스 MDP = MRP + a 정책 함수 : 현재 상태에서 어떤 액션을 취해야 할지 정해져 있다. 상태 가치 함수 : 현재 상태의 가치로 리턴으로 표현할 수 있고, 다음 액션을 통해 갈 수 있는 상태의 가시함수의 기대값으로 표현 가능하다. 액션 가치 함수 : 현재 상태에서 액션을 취했을 때의 가치이다. 액션을 통해 갈 수 있는 곳의 상태 가치의 기대값으로 작성할 수 있다. 여러분이 작성하신 내용의 기본적인 아이디어는 올바르나, 조금 더 명확하고 정확하게 표현..

인공지능/공부 2024.04.23

벨만 방정식, Q러닝, 반복적 정책 평가, SARSA, TD, MC 대략적 개념

벨만 최적 방정식 (Bellman Optimality Equation) 벨만 최적 방정식은 강화학습에서 최적의 정책을 찾기 위한 재귀적인 관계를 나타냅니다. 이 방정식은 각 상태에서 취할 수 있는 모든 가능한 행동 중에서 가장 높은 기대 리턴을 제공하는 행동을 선택함으로써, 최적의 상태 가치 함수를 계산합니다. 벨만 기대 방정식 (Bellman Expectation Equation) 벨만 기대 방정식은 주어진 정책 (\pi)에 대해 각 상태의 가치 함수를 계산하는 데 사용됩니다. 이 방정식은 선택된 정책 하에서 각 상태의 기대 가치를 계산합니다. 반복적 정책 평가 (Iterative Policy Evaluation) 반복적 정책 평가는 주어진 정책의 가치 함수를 평가하기 위해 사용되며, 정책이 수렴할 때..

인공지능/공부 2024.04.23

강화학습 퀴즈 - MDP, 벨만 방정식, 플래닝, 정책 평가, 정책 개선... with ChatGpt

기반하여 강화학습 주제에 대한 다양한 유형의 문제를 만들었습니다. 각 문제는 주어진 내용에 기반하여 답과 해설을 포함합니다. OX 문제 강화학습은 지도학습과 같이 지도자의 도움을 받아 학습한다. (O/X) 답: X 해설: 강화학습은 지도자의 도움 없이, 주로 시행착오를 통해 스스로 학습하는 방식입니다. 서술형 문제 강화학습에서의 '에이전트'와 '환경'을 설명하시오. 답: 에이전트는 강화학습 과정에서 학습을 담당하는 주체로, 특정 상황에서 어떤 행동을 결정하고 실행합니다. 환경은 에이전트를 제외한 모든 요소로, 에이전트의 행동에 반응하여 상태 변화를 일으키고 에이전트에게 그 결과를 제공합니다. 빈칸 채우기 강화학습의 목적은 순차적 의사결정 과정에서 받은 보상의 **__을 최대화하는 것이다.** 답: 누적합..

인공지능/공부 2024.04.22
728x90
728x90