반응형

인공지능/자연어 처리 147

자연어 처리 - Multi task learning

이전에 계속 배웠었던 내용이다. 앞과 뒤만 짤라서 그대로 사용하는 것! 첫번째는 그냥 학습하면 된다. 두번째는 A의 파라미터를 B에 그대로 집어넣고 그대로 학습한다. A와 B의 입 출력의 개수가 다르기 때문에 FC나 입력부분을 수정해줘야 한다. 세번째는 A가 학습한 것을 남기기 위해 특정 영역은 프리즈 시킨다. 이렇게하면 A의 학습내용을 잃지 않을 수 있다. 그러나 B 특화에 도달하지 못할 수 있으므로 잘 선택해야 한다. 데이터가 많고 사전 학습 모델과 성격이 다름 => 동물 분류와 의료 분류 데이터셋 많고 사전 학습 모델도 같음 == 동물 분류 두개 각각 경우의 수에 따라 다른 전략을 선택한다. 이 4가지 경우의 전략을 잔 선택해야 한다. 거리가 줄어들도록 학습을 하게 된다. 모든 로스를 다 더하는 방..

자연어 처리 - Transformer

번역 모델과 같은 경우에서 이러한 문제가 많이 생겼다. 필요한 정보들의 스코어(soft max를 한 attention score)와 가중합을 통해 ctx를 만들어서 연산을 통해 합치고 today가 나오게 된다. RNN이나 CNN을 사용하지 않고 작성한 논문 encoder과 decoder의 역할은 이전과 똑같다. input에서 +로 바로 연결해주는 skip connection이 적용되어 있는 것을 볼 수 있다. norm은 layer norm을 사용하게 된다. FF는 1layer 이다. 다중 레이어 X N번 만큼 인코더 블록을 여러번 반복하게 된다. Query Linear와의 유사성을 내적을 통해 계산하고 소프트 맥스를 통해 attention 가중치를 구한다. 현재의 나 자신 (x1)과 다른 것 (x2,x3..

자연어 처리 - RNN, LSTM

RNN 우린 이 점선으로 된 부분을 예측해야 한다. 그냥 MLP를 사용하면 현재 데이터나 과거 데이터나 신경쓰지 않는다. CNN은 패턴을 잡는 모델이라 순서를 신경쓰지 않아 문제가 생긴다. 시간의 순서를 신경써야 한다. inductive bias = 사람의 직관 h = 이전에서 넘어온 데이터 스퀸스 단위로 자르게 된다면 첫번째 h가 애매해지게 된다. h를 기억하여 다음 스텝에 사용한다. 2023.12.15 - [인공지능/공부] - 시계열 데이터(주가, imu data) 예측 인공지능 - RNN, LSTM 시계열 데이터(주가, imu data) 예측 인공지능 - RNN, LSTM RNN은 시간에 따라 변화하는 데이터를 얘측할 때 사용된다. stationary( 변화없는 )데이터 NON - stationar..

자연어 처리 - auto encoder, CNN

Auto encoder 오른쪽은 처음보네요 중요한 정보들만 남기고 나머지 정보는 손실 됩니다. z가 그대로 x를 카피할 수 있다. 그러므로 특별한 방식이 필요하다. i는 데이터의 개수가 아닌 차원이다. 즉 N은 차원의 수 이다. 노이즈를 주고 원래 데이터로 돌아가도록 학습! 2023.12.14 - [인공지능/공부] - 생성형 인공지능 Autoencoder - 개념 생성형 인공지능 Autoencoder - 개념 여태까지 FCN, CNN, CAM 모두 supervised learning였다. 즉 지도학습으로 input(data)와 정답(label)이 주어지는 학습이었다. 그러나 오늘 다룰 Autoencoder는 label이 없는 즉 정답이 input인 unsupervised learning이다. 나 yoon..

자연어 처리 - 모델 학습

시그모이드 때문에 소실이 커진다! 0보다 작은 값에선 미분값이 0이라는 문제가 생겨서 리키렐루가 나오는데 일단 넘어가네유 여기서 리키렐루가 나오네요 가중치 초기화는 0이거나 똑같은 값으로 하지 말라고 했었습니다! 이제 어떻게 하는게 좋은지 봅시다! 분산을 적당히 조절하는 것이 중요하다. 이거하면 바이어스가 필요없다고 했던것 같기도 하고... 이것만 가지고는 뭔가 batch와 layer를 이해하기 어려울것 같아서 gpt 센세를 활용하겠습니다. Batch Normalization과 Layer Normalization은 둘 다 신경망의 학습을 안정화하고 가속화하는 데 사용되는 기술입니다. 두 기술 모두 데이터의 평균과 분산을 정규화하는 과정을 통해 내부 공변량 변화(internal covariate shift..

자연어 처리 - 인공지능 선형대수, 인공 신경망

선형대수 0에서 시작하는 것 잊지 말기(코딩에서는) 메틀렙은 1에서 시작하지만 대부분은 0에서 시작한다고 알면 됩니다. 크기가 같아야 진행한다. 단순히 모든 원소에 곱해주면 된다. 가로 * 세로라고 생각하면 편하다. ab * bc 등 일렬로 적었을 때 가운데 숫자가 같아야 한다. 이제 어떻게 사용하는지 보자 여러 매트릭스들이 나온다. 인공신경망 앞뒤로도 뉴런이 계속 있다. 가지돌기로 받은 정보의 합이 역치를 넘으면 전달한다. sigmoid와 tanh와 비슷하게 생겼다. 바로 다음에 나왔다. 내가 실습해본 여러 가지 NN들이 있다.

728x90
728x90