반응형

인공지능 649

강화 학습 중간 정리 1 - MC, 마르코프 프로세스, MDP, MRP, 벨만 방정식

강화 학습 : 지도자의 도움 없이 혼자서 수많은 시행착오를 거치면서 학습하는 방법 지도 학습 : 아버지가 아들에게 자전거 타는 방법을 가르쳐 주듯이 지도자의 도움을 받아서 학습하는 방법 비지도 학습 : 사람 얼굴 1만장을 학습 후에 새로운 사람 얼굴을 생성하는 인공지능, 주어진 데이터의 성질이 비슷한 것들 끼리 묶는 클러스터링 순차적 의사결정 문제 해결 방식 - 시간 순서대로 주어진 상황에서 목적을 이루기 위해 상황을 근거로 목적에 부합한 행동을 하고 상황이 변하면 그 것을 근거로 목적을 향해 행동 보상 : 목적에 부합하여 의사 결정을 잘 했을 때 그 부분을 의사결정 행위자가 인지할 수 있도록 알려주는 신호 강화학습 : 순차적 의사결정 과정에서 받은 보상의 누적합을 최대화 하는 것 보상의 특징 1. 어떻..

인공지능/공부 2024.04.20

강화 학습 정리 - 6장 MDP를 모를 때 최고의 정책 찾기

정책 이터레이션이 뭐였지? 정책 평가와 정책 개선을 번갈아 수행하여 정책이 수렴할 때 까지 반복하는 방법론 P를 모른다 == 내가 어떤 S로 갈 지 모른다. 액션과 value의 매칭이 안된다. 여기서 한번 간 길을 계속 가게 될 수 있어 최적 값이 아니거나 길을 못 찾을 수도 있어 랜덤값을 추가한다. 랜덤 값으로 인해 최적길을 찾아주고, P를 모르기 때문에 다양한 경험을 한다. 학습이 진행될 수록 점점 정확해지기 때문에 그 땐 없앤다. Max가 되는 a를 선택하는게 일반적인 정책 BUT 최적의 정책인지 확실하지 않다. 리워드가 생기기 시작하면 더 따라가기 때문에 정책 정의 할 때 랜덤 값 추가 == 입실론 그리디! Q를 계속해서 업데이트 -> max Q 값은? Q 테이블 - 모든 s와 a에 대해 다 들어..

인공지능/공부 2024.04.20

강화 학습 정리 5강 - MDP를 모를 때 밸류 평가하기

MDP를 모른다 - 모든 상태에서 보상을 모른다. 가보기 전(경험)에 모른다. 정의되어 있을 순 있다. -> 우리가 살아가는 방식 MC- full batch, 통계에서도 사용한다. 그냥 해봐서 데이터 쌓기. 리턴 최대화 == 리워드 누적 합 최대화 경험해봐야 안다 == MC는 끝날 때 까지 그냥 한다. 특정 state를 가기 전에는 보상을 모른다! 가서 알게 된다! 최적 정책: 리워드의 총합인 리턴의 최대화 리턴 : 끝날 때 까지의 합 이므로 끝나기 전에는 모른다. - MC 끝까지 가기 어렵다! - TD V를 계산하는 과정 중에서 v를 재귀적으로 구하는 방법이 있었다. 끝까지 가지 않더라도 근사화 된 값을 사용할 수 있다. N, V 따로 안하면 매순간 평균으로 업데이트한다. value : 리워드의 총합 ..

인공지능/공부 2024.04.20

강화 학습 정리 - 4강 MDP를 알 때의 플래닝

밸류 (v) 평가하기 - Prediction 정책 찾기 - Control k는 에피소드 단위 시간! P =1이라는 것은 내가 원하면 무조건 거길로 가는 것! V : MDP를 알 때 - 정보가 많은 상황 ㄴ 알지만 모른다고 치고 Q를 써도 되지 않을까? ㄴㄴ 써도 된다 BUT 왜 V를 쓸까? -> 굳이 Q를 안써도 되기 때문 V는 state의 가치 Q는 action을 취했을 때 state의 가치 -> V의 복잡도가 더 낮기 때문에 V를 사용한다. 내가 어떤 상태에서 어떤 행동을 취했을 때 어떤 상태로 갈 확률을 안다! ==> V를 사용한다. Q를 일부로 사용하는 경우도 있다. On Policy, off Policy Q : MDP를 모를 때 최신값 사용 - 학습 속도는 빨라질 수 있으나 진동이 커진다. 반복..

인공지능/공부 2024.04.20

강화 학습 정리 - 3강 벨만 방정식

R- 보상, 리워드 G - 리턴 v - 상태 가치 방정식 q - 액션 가치 방정식 E - 평균 취하기 * - 최적 값 t - 상태 시간 단위 (k 보다 작은 시간인데 이전에서 나왔던 시간의 개념과 똑같다.) k - 에피소드 시간 단위 평균은 어디? - 어차피 마지막에 평균있어서 ㄱㅊ 항상 성립하는 것은 아니다 v(s) != v(s')이기 때문 v : s에 대한 리턴의 기댓값 액션이 추가되었다. v(특정 s의 가치)와 q(특정 s에서 a를 취했을 때 가치)의 관계 모델 프리 : 결과는 얻어지나 어떤 값으로 계산되는지 모르는 경우 v와 q의 선택은 목표에 따라 다르다. 어떤 위치에 도달해야 한다. S를 변화해야 한다. S를 예측할 수 없다. -> q를 사용한다. s'을 모를 때 q(s,a)를 대신해서 사용한..

인공지능/공부 2024.04.20

강화학습 정리 - 1강 강화학습이란?

지도 학습 - 정답 비지도 학습 - 목적 함수 강화 학습 - 보상의 총합 최대화 -> 보상이 학습을 가능하게 해준다. 누적합 - 시간의 흐름에 따라 보상이 쌓인다. 끝나면 그게 하나의 에피소드이다. 에이전트 - 게이머, 사람 환경 전체를 이해하고 모델링 할 수 있다. -> 굳이 강화학습 사용하지 않아도 된다. 환경이 너무 복잡해서 일부만 쓴다. -> state, 간소화해서 모델링 한다.

인공지능/공부 2024.04.20

강화학습 정리 - 2강 마르코프 프로세스

모든 상태를 행렬로 포함한다. - 행별로 쭉 더해서 1이 되는지 확인 확률로 정의하는데 t 이전의 과거는 필요없다! -> 메모리 감소 효과도 있다. 체인 룰에 의해서 다음을 계속 예측할 수 있다. 모든 상황이 마르코프 상태가 맞는 것은 아니라 정답이 아닐 수 있다. 그러나 모델링은 가능하다! 자율주행에서의 현재 상태 == 한 장만으로는 판단할 수 없다. - 10초간의 여러 사진을 하나로 볼 수 있다. 감쇠인자를 통해 미래 보상의 불확실성을 표현할 수 있따. 리턴의 정의 : 특정 시점, 상태에서의 리워드 합 G: 리턴, R: 보상, S: 상태 리턴(G)가 과도하게 커지면 프로그램의 숫자 표현형을 넘길 수 있고, 게임이 안 끝날 수 있다. 가치(V) != 리워드(R)! 내가 미래에 무엇을 받을 지 모르니 기..

인공지능/공부 2024.04.20

생성형 인공지능 특강

생성형 인공지능 - 어마어마하게 많은 GPU가 필요하다. 달리나 chat GPT - 몇 만개의 GPU사용 ? 다양한 생성 AI가 있다 - 비디오, 텍스트, 사진, 음악 등 자율 주행, 로봇, 드론 등 모든게 AI로 진행되고 있다. ...? 들어오는 것 인식 -> Encorder에서 담당한다. (얼굴 인식 등 Convolution도 인코더와 비슷한 느낌이다) Decorder - 발생 - GPT도 디코더 모델! 컴퓨터 vision(영상처리)의 발전 - 자연어 처리에서 나왔다. Transformer? RNN? 토큰화화 후 자연어를 컴퓨터가 인식할 수 있는 embedding 벡터로 변환 embedding - LSTM과 RNN이 했었다. 길면 죽어! Transformer - 길어도 상관없다. 행렬의 크기만 하드웨..

인공지능/공부 2024.04.17

GPT로 자연어 처리 퀴즈 만들기 2 - embedding, transformer, text mining

PDF 내용을 기반으로 딥러닝과 관련된 10개의 퀴즈 문제와 각 문제에 대한 해설을 준비했습니다. 이 문제들은 딥러닝의 기본 개념, 아키텍처, 기능 등을 다룹니다. 퀴즈 문제와 해설 퀴즈: 딥러닝에서 '활성화 함수(activation function)'의 역할은 무엇인가요? 답: 신경망의 각 노드(뉴런) 출력에 비선형성을 도입하는 것입니다. 해설: 활성화 함수는 신경망의 각 뉴런에서 계산된 선형 합을 입력으로 받아, 비선형 결과를 출력하여 다음 레이어로 전달합니다. 이 비선형성은 딥러닝 모델이 복잡한 문제를 해결할 수 있게 해줍니다. 퀴즈: '역전파(backpropagation)' 과정에서 주로 사용되는 최적화 알고리즘은 무엇인가요? 답: 경사 하강법(Gradient Descent) 해설: 역전파는 네트..

Back propagation 손으로 하나하나 적어보기

단순하게 이렇게 이어진 네트워크가 있다고 가정하겠습니다. 입력은 x, 가중치와 곱해진 값들은 z, activation함수를 통과하면 h, 출력값은 y_hat입니다. 일단 이 경우에는 loss function으로 binary Cross entropy와 MSE를 사용하는 2가지 경우로 볼 수 있죠 그럼 가장 가까운 가중치인 3번째 layer의 첫번째 node에서 나오는 weight를 업데이트 해봅시다. 일단 loss function을 미분해야죠 벌써 지저분.. 그리고 Prediction y (y hat)를 미분합니다. 이것은 z값에 sigmoid를 씌운 값으로 sigmoid 미분을 진행합니다. sigmoid 미분은 하려고하면 귀찮지만 외우면 단순합니다.. 그럼 이제 마지막으로 파라미터로 미분을 때려주면 이전..

인공지능/공부 2024.04.17
728x90
728x90