반응형

소프트웨어 918

인공지능 Initialization, Regularization, Transfer Learning

Initialization 빠르게, 그리고 global minimun을 찾기 위해 Initialization은 중요하다. 위 사진만 봐도 금방 끝날 학습은 바로 보인다. 이전에도 나온 적 있는 그림이다. backpropagation을 하면서 gradient가 소실되는 것이다. vanishing gradient의 원인인 sigmoid와 tanh의 미분 브래프 이다. sigmoid는 미분하면 최대가 0.3이고, tanh는 1이고, 둘 다 양끝은 0이기 때문에 반복하다 보면 기울기 소실이 발생하는 것이다. 그리하여 나온 것이 ReLU이다. 그래도 여기서도 0이하의 값들이 소실되는 문제가 발생한다.(dying ReLU) 기울기 폭주는 너무 큰 기울기 값이 들어갔을 때 발생한다. 이것은 학습이 불안정해 지도록 만..

인공지능/공부 2023.12.16

인공지능 backpropagation, optimization- 개념

backpropagation backpropagation은 대부분의 인공지능의 파라미터 업데이트 방식이다. 우린 경사하강법을 통해 loss를 최소화 시키는 방향으로 학습한다. 기본적인 gradient 계산 방법이다. 이제 activation funcion(sigmoid, ReLU)와 여러 layer가 있는 NN에선 위와 같은 방식으로 backpropagation이 진행된다. 여기선 activation이 identity이기 때문에 미분하면 1이 나왔다. 여기선 첫번째 레이어의 파라미터를 구할 수 있게 된다. 그럼 저렇게 구한 미분값을 통해 학습률을 곱해서 원래의 파라미터에 빼게 된다. 이제 이러한 backpropagation에 여러 요소들을 추가하여 만든 optimization을 보겠따. optimizat..

인공지능/공부 2023.12.16

시계열 데이터(주가, imu data) 예측 인공지능 - RNN, LSTM

RNN은 시간에 따라 변화하는 데이터를 얘측할 때 사용된다. stationary( 변화없는 )데이터 NON - stationary 데이터 둘 중에 무엇이든 이러한 데이터들은 이전의 값들이 필요하다. 그러나 CNN, FCN을 사용하면 이전 값들이 그냥 소멸되게 된다. 위 사진이 RNN에 대한 기본 원리 이다. 이렇게 RNN이 들어가면 t1 -> t n 까지 모든 결과가 모든 input들을 포함하게 된다. 위의 사지을 보면 확실히 뒤에 있는 부분은 미분이 많이 들어가서 gradient 소실이 크게 보인다. 그리하여 vanish나 explode를 막기 위해 LSTM을 사용하게 되었다. LSTM Long Short Term Memory LSTM을 이해하려면 gate 구조를 이해해야 된다. gate구조는 open..

인공지능/공부 2023.12.15

생성형 인공지능 GAN 개념 - autoencoder의 업그레이드 버전

GAN = Generative Adversarial Networks GAN은 이미 실습을 한번 했었다. 아래 포스팅을 통해 한번 확인할 수 있다. 2023.12.07 - [인공지능/공부] - TensorFlow - 생성형 인공지능 GAN TensorFlow - 생성형 인공지능 GAN 여기에 작성하진 않았지만 인코딩 엔코딩으로 모델을 생성하는 것에서 발전된 모델이다. 생성하는 모델이 있고, 그 것을 판단하는 모델이 있다. 생성한 모델에서 나온 것은 판단하는 모델에서 yoonschallenge.tistory.com 여기선 descriminative model(판단 모델) 과 generative model(생성 모델) 두개를 사용한다. 생성 데이터와 실제 데이터의 분포는 같아야 한다. 즉 쉽게 말하면 실제 데..

인공지능/공부 2023.12.15

물체의 위치까지 구분하는 인공지능 -segmentation, odject detection

여태까지 CNN으로 물체가 있다, 없다 정도만 알았다면 이번에 해볼 것은 어디 위치에 물체가 있는지 알려주는 segmentation이다. classification은 전체 input에 대해 오직 한개의 결과만 나오고, 한가지 class만 찾을 수 있다. segmentation은 픽셀 단위로 그 위치에 무엇이 있는지 알려준다. 그러므로 학습시킬 때 정답도 픽셀단위로 무엇이다 라벨링해야해서 손이 많이 간다. 여기선 DENSE layer를 사용하지 않고, convolution을 통한 down sampling, up sampling을 사용한다. 그리고 결과는 클래스 개수 만큼 채널이 나오고 원 핫 인코딩 된다. 이렇게 진행하면 어디에 무엇이 있는지 위치정보가 손실되게 된다. 그 위치 정보를 주기 위해 연결을 한..

인공지능/공부 2023.12.15

생성형 인공지능 Autoencoder - 개념

여태까지 FCN, CNN, CAM 모두 supervised learning였다. 즉 지도학습으로 input(data)와 정답(label)이 주어지는 학습이었다. 그러나 오늘 다룰 Autoencoder는 label이 없는 즉 정답이 input인 unsupervised learning이다. 나중에 나오겠지만 차원을 축소시켜 피쳐의 개수를 줄이고, 정보의 loss는 최대한 줄인다. 우린 encoder(z = f(x))와 decoder(x = g(z))로 나눌 수 있따. ( x = g(f(x))) 로스는 결과와 입력값의 차이를 제곱하는 mse와 비슷한 성격을 가지고 있다. latent space를 그래프로 표시하면 위와 같다. 여기서 점이 없는 부분을 decoder로 돌리면 없는 data를 생산할 수 있다. 그..

인공지능/공부 2023.12.14

설명 가능한 인공지능 CAM - 개념

기존 CNN, FCN은 설명이 불가능하다.(출력만 나온다. API) CNN에서 중요한 부분은 높은 가중치를 받는다. -> 이걸 확인하면 우린 네트워크를 설명할 수 있다. CLASS ACTIVATION MAP - CAM 우린 이러한 이유로 CAM을 만들었고, 사진의 중요한 부분을 찾을 수 있다. 기존 CNN구조는 위와 같이 Featrue extraction -> FCN으로 진행되어 우리가 무것을 어떻게 보고 설명하는지 판단할 수 없다. CAM에선 CNN의 flatten 전에 오메가(학습파라미터)를 사용하여 한개의 필터로 합친다. 그것이 class Activation MAP이다. 그것을 통해 우린 어디가 중요한 부분인 지 알수 있고, 그 map을 통해 classfication도 할 수 있다. 여기서 처음알았..

인공지능/공부 2023.12.14

CNN - 기본 개념

우리는 여태까지 FCN으로 tensorflow에서 Dense만 사용해왔다. 그러나 사진과 같은 경우엔 해상도가 만만치 않아 대충 1000*1000이라고 하면 일렬로 나열하면 1000000이 된다. 이게 Dense layer 하나만 거쳐서 100개로 줄어든다해도 100,000,000 1억개의 파라미터가 존재하게 된다. 이 것은 확실한 컴퓨터소스를 잘 활용하지 못하는 것이다. 그래서 위와 같이 필터를 사용하여 파라미터 9개만 사용하여 피쳐수도 줄이고, 중요한 정보만 가져오는 방식을 만들었다. 피쳐 수를 줄이고 싶지 않을 때 padding을 사용하게 된다. 그럼 0으로 padding 수 만큼 겹겹히 쌓아서 필터를 거쳐도 피쳐 수가 줄지 않게 해준다. 필터 크기가 3이면 패딩은 1, 필터 크기가 5이면 패딩은 ..

인공지능/공부 2023.12.13
728x90
728x90