반응형

2024/04 154

딥러닝 개론 정리 7강 - 합성곱 신경망 2 CNN

이미지가 복잡할 수록 여러 단계를 거쳐야 한다. 필터에 좀 더 집중하였다. - 특성을 병렬로 뽑아내기, 압축하기 그룹핑하여 병렬처리하기 GPU성능이 낮아서 한개로 못 돌리기 때문에 물리적으로 GPU 구분하기 패딩과 스트라이드를 적절히 사용해서 크기를 조절했다. 한쪽은 형태를 학습하고, 한 쪽은 색상을 학습했다. 최대한 깊게 학습해보자! 표가 3장이나 되어서 생략 그런데 깊다고 좋은게 맞나? -> google net 단순히 깊은 것 보다 필터를 여러 크기로 다양하게 사용하여 여러가지 패턴을 병렬로 처리할 수 있게 되었다. 아직도 깊다... 기울기 소실과 longterm dependency 문제 ! 깊다고 좋은 것 아니다! 깊지 않아도 학습을 효과적으로 만들어 준다. 더하지 않고 concat하면 파라미터의 ..

인공지능/공부 2024.04.21

컴퓨터 네트워크 기본

네트워크란 ? - 두대 이상의 장치가 연결되어 서로 정보를 주고받을 수 있는 통신망 왜 알아야 할까? - 앱들 중에서 인터넷을 사용하지 않는 앱은 거의 없다. 대부분의 프로그램은 네트워크를 이용한다.! 개발자는 프로그램을 만들어야 하기 때문에 알아야 한다. 어디에 사용될까? 개발자 업무 1. 프로그램 만들기 2. 프로그램 유지 보수 하기 1. 공식 문서를 읽어보면 프로토콜, 쿠키, state 등 다양한 컴퓨터 네트워크 지식이 등장한다. 2. 일부 에러 상황에서 컴퓨터 네트워크 지식이 있으면 무슨 오류 인지 조차 모른다. TCP, UDP, IP...... 거시적으로 보기 네트워크의 기본 구조는 그래프 형태이다. (노드와 간선으로 표현) 우리가 사용하는 컴퓨터와 스마트폰은 가장자리 노드에 있다.( 냉장고, ..

기타 2024.04.21

선형대수 및 프로그래밍 과제 python 2 - gauss-Jordan Elimination 사용하여 해 구하기 , ref

f = open('input.txt','r') g = open('output.txt','w') a= f.readline().split() g.write(str(a) + "\n") a= f.readline().split() row=int(a[0]) column=int(a[1]) ahang = [[0]*(column+2) for x in range(row)] for i in range(0,row): a= f.readline().split() for j in range(0,column+1): if (j==column): ahang[i][j+1]=float(a[j]) ahang[i][j]='l' else: ahang[i][j]=float(a[j]) for x in range (row): for z in rang..

언어/Python 2024.04.21

선형대수 및 프로그래밍 과제 python 1 - 행렬 합 구하기

f = open('input01.txt','r') g = open('output01.txt','w') nn = int(f.readline()) nnn =0 for i in range (0,nn): if (i==0): a= f.readline().split() arow = int(a[1]) acolumn = int(a[2]) dap = [[0]*acolumn for x in range(arow)] else: bline = f.readline().split() brow = int(bline[1]) bcolumn = int(bline[2]) if (arow == brow and acolumn == bcolumn): nnn=0 else: print("계산불가") nnn=1 g.write('+ 계산 불가') g...

언어/Python 2024.04.21

강화 학습 중간 정리 3 - MDP 모를 때 최적 정책 찾기

정책 이터레이션 - 정책 평가와 개선의 반복 2. P를 모른다 -> 내가 어떤 s로 갈지 모른다. 해결법! 1. 평가 자리에 MC 방법론 이용하여 각 상태 v 구하기! 몬테카를로 방법론(Monte Carlo Methods)은 무작위 샘플링을 기반으로 하는 계산 알고리즘의 한 종류입니다. 다양한 분야에서 광범위하게 활용되며, 특히 복잡한 문제의 수치적 해를 찾는데 유용하게 사용됩니다. 기본 아이디어는 무작위성(randomness)을 이용하여 문제의 해를 확률적으로 추정하는 것입니다. 몬테카를로 방법은 다양한 형태로 나타날 수 있지만, 일반적인 사용 예로는 다음과 같은 것들이 있습니다: 적분의 근사: 함수의 적분을 근사하기 위해 무작위로 점들을 선택하고 함수 값의 평균을 이용합니다. 확률적 시뮬레이션: 금융..

인공지능/공부 2024.04.21

강화 학습 중간 정리 2 - MDP planning, MDP X value평가, X planning

여기서 k는 에피소드 단위의 시간! 반복적 정책 평가 - 각 s에 대한 v 반복 계산 가능 벨만 기대 방정식을 이용해 업데이트를 계속해서 실제 가치를 알 수 있다. 업데이트할 때 k단위의 시간 잘 안보면 무너질 수 있다. ( 행렬을 두고 하나만 업데이트 해야 한다.) 정책 이터레이션 - 정책 평가(v구하기)와 정책 개선(정책 생성)의 반복 -> 수렴 그리디 정책 - 먼 미래를 생각하지 않고 다음 칸의 v가 가장 큰 것을 선택 v평가(정책 평가) -> 높은 v만 따라가는 정책 만들기(정책 개선) -> 다시 v평가 반복 ----> 수렴 정책 개선 보다는 평가하는데서 많은 연산 수행 -> 평가 간소화 하는 것 가능 (최적 정책 찾는게 목적) -> 정책 평가를 1단계만 수행하고 정책 개선 - 빠른 정책 평가와 ..

인공지능/공부 2024.04.20

강화 학습 중간 정리 1 - MC, 마르코프 프로세스, MDP, MRP, 벨만 방정식

강화 학습 : 지도자의 도움 없이 혼자서 수많은 시행착오를 거치면서 학습하는 방법 지도 학습 : 아버지가 아들에게 자전거 타는 방법을 가르쳐 주듯이 지도자의 도움을 받아서 학습하는 방법 비지도 학습 : 사람 얼굴 1만장을 학습 후에 새로운 사람 얼굴을 생성하는 인공지능, 주어진 데이터의 성질이 비슷한 것들 끼리 묶는 클러스터링 순차적 의사결정 문제 해결 방식 - 시간 순서대로 주어진 상황에서 목적을 이루기 위해 상황을 근거로 목적에 부합한 행동을 하고 상황이 변하면 그 것을 근거로 목적을 향해 행동 보상 : 목적에 부합하여 의사 결정을 잘 했을 때 그 부분을 의사결정 행위자가 인지할 수 있도록 알려주는 신호 강화학습 : 순차적 의사결정 과정에서 받은 보상의 누적합을 최대화 하는 것 보상의 특징 1. 어떻..

인공지능/공부 2024.04.20

강화 학습 정리 - 6장 MDP를 모를 때 최고의 정책 찾기

정책 이터레이션이 뭐였지? 정책 평가와 정책 개선을 번갈아 수행하여 정책이 수렴할 때 까지 반복하는 방법론 P를 모른다 == 내가 어떤 S로 갈 지 모른다. 액션과 value의 매칭이 안된다. 여기서 한번 간 길을 계속 가게 될 수 있어 최적 값이 아니거나 길을 못 찾을 수도 있어 랜덤값을 추가한다. 랜덤 값으로 인해 최적길을 찾아주고, P를 모르기 때문에 다양한 경험을 한다. 학습이 진행될 수록 점점 정확해지기 때문에 그 땐 없앤다. Max가 되는 a를 선택하는게 일반적인 정책 BUT 최적의 정책인지 확실하지 않다. 리워드가 생기기 시작하면 더 따라가기 때문에 정책 정의 할 때 랜덤 값 추가 == 입실론 그리디! Q를 계속해서 업데이트 -> max Q 값은? Q 테이블 - 모든 s와 a에 대해 다 들어..

인공지능/공부 2024.04.20

강화 학습 정리 5강 - MDP를 모를 때 밸류 평가하기

MDP를 모른다 - 모든 상태에서 보상을 모른다. 가보기 전(경험)에 모른다. 정의되어 있을 순 있다. -> 우리가 살아가는 방식 MC- full batch, 통계에서도 사용한다. 그냥 해봐서 데이터 쌓기. 리턴 최대화 == 리워드 누적 합 최대화 경험해봐야 안다 == MC는 끝날 때 까지 그냥 한다. 특정 state를 가기 전에는 보상을 모른다! 가서 알게 된다! 최적 정책: 리워드의 총합인 리턴의 최대화 리턴 : 끝날 때 까지의 합 이므로 끝나기 전에는 모른다. - MC 끝까지 가기 어렵다! - TD V를 계산하는 과정 중에서 v를 재귀적으로 구하는 방법이 있었다. 끝까지 가지 않더라도 근사화 된 값을 사용할 수 있다. N, V 따로 안하면 매순간 평균으로 업데이트한다. value : 리워드의 총합 ..

인공지능/공부 2024.04.20

강화 학습 정리 - 4강 MDP를 알 때의 플래닝

밸류 (v) 평가하기 - Prediction 정책 찾기 - Control k는 에피소드 단위 시간! P =1이라는 것은 내가 원하면 무조건 거길로 가는 것! V : MDP를 알 때 - 정보가 많은 상황 ㄴ 알지만 모른다고 치고 Q를 써도 되지 않을까? ㄴㄴ 써도 된다 BUT 왜 V를 쓸까? -> 굳이 Q를 안써도 되기 때문 V는 state의 가치 Q는 action을 취했을 때 state의 가치 -> V의 복잡도가 더 낮기 때문에 V를 사용한다. 내가 어떤 상태에서 어떤 행동을 취했을 때 어떤 상태로 갈 확률을 안다! ==> V를 사용한다. Q를 일부로 사용하는 경우도 있다. On Policy, off Policy Q : MDP를 모를 때 최신값 사용 - 학습 속도는 빨라질 수 있으나 진동이 커진다. 반복..

인공지능/공부 2024.04.20
728x90
728x90