반응형

인공지능/공부 281

딥러닝개론 정리 2 - Convolution, CNN, 합성곱

공간 데이터(이미지)를 FCN하기 위해 1차원으로 변환하는 순간 형상정보가 분산 되기 때문에 패턴 인식이 어렵다. 또한 파라미터의 개수, 연산량의 기하급수적으로 증가하기 때문에 이미지 데이터 처리에 FCN은 별로다 시신경 시스템을 모방하였다. -> 계층적으로 합성곱을 진행한다. 입력 데이터 - Width * Height * Depth(채널) 수용영역 - filter의 크기에 따라 달라진다. activation map = convolution연산의 결과로 만들어지는 이미지 feature map = 합성곱 연산 결과만 한것 (activation function x) 서브 샘플링 - 데이터를 낮은 빈도로 샘플링 했을 때 샘플을 근사하는 연산 데이터가 이미지면 이미지 크기를 줄이는 연산이 되어 다운 샘플링이라고..

인공지능/공부 2024.04.22

딥러닝개론 정리 1 - 머신러닝, 딥러닝, backpropagation, 잡음 주입, 정규화, 규제화

인공지능 - 인간의 지능을 모방하여 사람이 하는 일을 기계가 할 수 있도록 하는 기술 머신러닝 - 데이터의 특징을 스스로 판별하지 못한다. 딥러닝 - 데이터의 특징을 스스로 분석하여 답을 찾는다. 비정형 데이터 전부 가능 feature extraction 피쳐 추출- 데이터 별로 어떤 특징을 가지고 있는지 찾아내고, 그것을 토대로 데이터를 벡터로 변환하는 작업 데이터셋 - train + validation(검증 용이므로 데이터가 충분치 않다면 사용 X) + test 배치 크기 * iteration/epoch = 데이터 셋 크기 지도 학습 - 정답을 주고, 오차를 통해 학습 비지도 학습 - 정답 없이 비슷한 데이터를 클러스트링(범주화)하여 예측하는 방법 강화 학습 - 경험을 토대로 보상을 극대화 한다. t..

인공지능/공부 2024.04.22

강화 학습 중간 정리 4 - MC, 벨만 방정식, planning, 최적 정책 찾기, value 평가

순차적 의사 결정 문제 해결 방식 - 시간 순서대로 주어진 상황에서 목적을 이루기 위해 행동을 하는 것의 반복 마르코프 성질 - 미래 (t+1)은 오로지 현재(t)에 의해 결정된다. 마르코프 리워드 프로세스 - 마르코프 프로세스 + 보상 리턴(G, 에피소드가 끝날 때 까지 보상의 합)의 최대화 v - s에서 시작하여 G의 기대값 측정 상태 가치 함수v - s의 v 알기 - s에서 G 기댓값 마르코프 결정 프로세스 - MRP + action 상태 가치 함수 v - 정책(a를 정해준다)에 따라 G가 달라진다. 액젼 가치 함수 q - s에서 a에 대한 평가 벨만 방정식 - 위의 v와 q를 식으로 작성한것 벨만 기대 방정식 - v와 q를 구하는 법 v(s) = E(G) = E(R + v(s)) - s가 다른 시..

인공지능/공부 2024.04.22

딥러닝 개론 정리 7강 - 합성곱 신경망 2 CNN

이미지가 복잡할 수록 여러 단계를 거쳐야 한다. 필터에 좀 더 집중하였다. - 특성을 병렬로 뽑아내기, 압축하기 그룹핑하여 병렬처리하기 GPU성능이 낮아서 한개로 못 돌리기 때문에 물리적으로 GPU 구분하기 패딩과 스트라이드를 적절히 사용해서 크기를 조절했다. 한쪽은 형태를 학습하고, 한 쪽은 색상을 학습했다. 최대한 깊게 학습해보자! 표가 3장이나 되어서 생략 그런데 깊다고 좋은게 맞나? -> google net 단순히 깊은 것 보다 필터를 여러 크기로 다양하게 사용하여 여러가지 패턴을 병렬로 처리할 수 있게 되었다. 아직도 깊다... 기울기 소실과 longterm dependency 문제 ! 깊다고 좋은 것 아니다! 깊지 않아도 학습을 효과적으로 만들어 준다. 더하지 않고 concat하면 파라미터의 ..

인공지능/공부 2024.04.21

강화 학습 중간 정리 3 - MDP 모를 때 최적 정책 찾기

정책 이터레이션 - 정책 평가와 개선의 반복 2. P를 모른다 -> 내가 어떤 s로 갈지 모른다. 해결법! 1. 평가 자리에 MC 방법론 이용하여 각 상태 v 구하기! 몬테카를로 방법론(Monte Carlo Methods)은 무작위 샘플링을 기반으로 하는 계산 알고리즘의 한 종류입니다. 다양한 분야에서 광범위하게 활용되며, 특히 복잡한 문제의 수치적 해를 찾는데 유용하게 사용됩니다. 기본 아이디어는 무작위성(randomness)을 이용하여 문제의 해를 확률적으로 추정하는 것입니다. 몬테카를로 방법은 다양한 형태로 나타날 수 있지만, 일반적인 사용 예로는 다음과 같은 것들이 있습니다: 적분의 근사: 함수의 적분을 근사하기 위해 무작위로 점들을 선택하고 함수 값의 평균을 이용합니다. 확률적 시뮬레이션: 금융..

인공지능/공부 2024.04.21

강화 학습 중간 정리 2 - MDP planning, MDP X value평가, X planning

여기서 k는 에피소드 단위의 시간! 반복적 정책 평가 - 각 s에 대한 v 반복 계산 가능 벨만 기대 방정식을 이용해 업데이트를 계속해서 실제 가치를 알 수 있다. 업데이트할 때 k단위의 시간 잘 안보면 무너질 수 있다. ( 행렬을 두고 하나만 업데이트 해야 한다.) 정책 이터레이션 - 정책 평가(v구하기)와 정책 개선(정책 생성)의 반복 -> 수렴 그리디 정책 - 먼 미래를 생각하지 않고 다음 칸의 v가 가장 큰 것을 선택 v평가(정책 평가) -> 높은 v만 따라가는 정책 만들기(정책 개선) -> 다시 v평가 반복 ----> 수렴 정책 개선 보다는 평가하는데서 많은 연산 수행 -> 평가 간소화 하는 것 가능 (최적 정책 찾는게 목적) -> 정책 평가를 1단계만 수행하고 정책 개선 - 빠른 정책 평가와 ..

인공지능/공부 2024.04.20

강화 학습 중간 정리 1 - MC, 마르코프 프로세스, MDP, MRP, 벨만 방정식

강화 학습 : 지도자의 도움 없이 혼자서 수많은 시행착오를 거치면서 학습하는 방법 지도 학습 : 아버지가 아들에게 자전거 타는 방법을 가르쳐 주듯이 지도자의 도움을 받아서 학습하는 방법 비지도 학습 : 사람 얼굴 1만장을 학습 후에 새로운 사람 얼굴을 생성하는 인공지능, 주어진 데이터의 성질이 비슷한 것들 끼리 묶는 클러스터링 순차적 의사결정 문제 해결 방식 - 시간 순서대로 주어진 상황에서 목적을 이루기 위해 상황을 근거로 목적에 부합한 행동을 하고 상황이 변하면 그 것을 근거로 목적을 향해 행동 보상 : 목적에 부합하여 의사 결정을 잘 했을 때 그 부분을 의사결정 행위자가 인지할 수 있도록 알려주는 신호 강화학습 : 순차적 의사결정 과정에서 받은 보상의 누적합을 최대화 하는 것 보상의 특징 1. 어떻..

인공지능/공부 2024.04.20

강화 학습 정리 - 6장 MDP를 모를 때 최고의 정책 찾기

정책 이터레이션이 뭐였지? 정책 평가와 정책 개선을 번갈아 수행하여 정책이 수렴할 때 까지 반복하는 방법론 P를 모른다 == 내가 어떤 S로 갈 지 모른다. 액션과 value의 매칭이 안된다. 여기서 한번 간 길을 계속 가게 될 수 있어 최적 값이 아니거나 길을 못 찾을 수도 있어 랜덤값을 추가한다. 랜덤 값으로 인해 최적길을 찾아주고, P를 모르기 때문에 다양한 경험을 한다. 학습이 진행될 수록 점점 정확해지기 때문에 그 땐 없앤다. Max가 되는 a를 선택하는게 일반적인 정책 BUT 최적의 정책인지 확실하지 않다. 리워드가 생기기 시작하면 더 따라가기 때문에 정책 정의 할 때 랜덤 값 추가 == 입실론 그리디! Q를 계속해서 업데이트 -> max Q 값은? Q 테이블 - 모든 s와 a에 대해 다 들어..

인공지능/공부 2024.04.20

강화 학습 정리 5강 - MDP를 모를 때 밸류 평가하기

MDP를 모른다 - 모든 상태에서 보상을 모른다. 가보기 전(경험)에 모른다. 정의되어 있을 순 있다. -> 우리가 살아가는 방식 MC- full batch, 통계에서도 사용한다. 그냥 해봐서 데이터 쌓기. 리턴 최대화 == 리워드 누적 합 최대화 경험해봐야 안다 == MC는 끝날 때 까지 그냥 한다. 특정 state를 가기 전에는 보상을 모른다! 가서 알게 된다! 최적 정책: 리워드의 총합인 리턴의 최대화 리턴 : 끝날 때 까지의 합 이므로 끝나기 전에는 모른다. - MC 끝까지 가기 어렵다! - TD V를 계산하는 과정 중에서 v를 재귀적으로 구하는 방법이 있었다. 끝까지 가지 않더라도 근사화 된 값을 사용할 수 있다. N, V 따로 안하면 매순간 평균으로 업데이트한다. value : 리워드의 총합 ..

인공지능/공부 2024.04.20

강화 학습 정리 - 4강 MDP를 알 때의 플래닝

밸류 (v) 평가하기 - Prediction 정책 찾기 - Control k는 에피소드 단위 시간! P =1이라는 것은 내가 원하면 무조건 거길로 가는 것! V : MDP를 알 때 - 정보가 많은 상황 ㄴ 알지만 모른다고 치고 Q를 써도 되지 않을까? ㄴㄴ 써도 된다 BUT 왜 V를 쓸까? -> 굳이 Q를 안써도 되기 때문 V는 state의 가치 Q는 action을 취했을 때 state의 가치 -> V의 복잡도가 더 낮기 때문에 V를 사용한다. 내가 어떤 상태에서 어떤 행동을 취했을 때 어떤 상태로 갈 확률을 안다! ==> V를 사용한다. Q를 일부로 사용하는 경우도 있다. On Policy, off Policy Q : MDP를 모를 때 최신값 사용 - 학습 속도는 빨라질 수 있으나 진동이 커진다. 반복..

인공지능/공부 2024.04.20
728x90
728x90