반응형

소프트웨어 944

자연어 처리 정리 - 8강 Machine Translation with RNN

continuous inputs - time series - 날짜, 주가 등 시간의 순서가 있는 data 마지막은 각각의 인풋이 새로운 결과를 만든다. 여기서 Whh, Wxh, Wyh 등 모든 파라미터는 이전 에 사용했던 것과 동일하다. 기본적인 RNN 구조에서 parameter vector는 입력에 한개, 이전 입력에 대해 넘어 오는 것에서 한개, 출력으로 보내는 것에 한 개 있잖아 그럼 이 파라미터들은 t-1 시점이랑 t 시점이랑 값이 똑같은거야? 기본적인 RNN(Recurrent Neural Network) 구조에서는 시간에 따라 입력되는 다양한 시점의 데이터를 처리할 때, 모든 시점에서 같은 파라미터(가중치)를 공유합니다. 이는 RNN의 핵심 특징 중 하나로, 시간적으로 연속적인 데이터를 처리할 ..

자연어 처리 정리 - 7강 Text classification with CNN

타 딥러닝, 머신러닝에서 사용했던 classification과 차이는 없다. classification - 2개 중 한 개, 여러 개 중 한 개, 여러 개 중 여러 개 정확도 - 단순하게 전체 중 정답을 맞춘 정도 정밀도 - 참이라고 예측, 판단한 것 중 참인 것 ex) 프로그램이 암이라고 예측한 사람들 중 진짜 암인경우 재현율 - 참인데 참이라고 맞춘 것 ex) 암에 걸린 사람들 중 예측 프로그램이 얼마나 맞췄냐 precision 정밀도 - 정확성이 중요한 경우 - 참이라고 예측한 경우 중 참인 확률 recall 재현율 - 최대한 많은 옵션을 주는 경우 - 참을 참이라고 예측한 확률 그냥 평균하몬 된다. B의 영향이 너무 커지긴 한데... 한 개의 카테고리만 가지지 않는다. Embedding -> Co..

자연어 처리 5강 - Deep Learning Recap 1

Evaluation - Forward propagation == inference 추정하다. exp 사용하는 이유는 최대값에 민감하게 반응하기 때문이ㅏㄷ loss = prediction과 label을 비교하여 차이를 구한다. cross entropy loss를 줄이는 방향으로 학습한다. 항상 경사 하강법을 사용하는 것은 아니다! 그러나 특정 상황에서만 쓴다. 네, 딥러닝에서 파라미터 최적화는 주로 손실 함수의 그래디언트(미분값)를 이용한 방법에 의존합니다. 이는 그래디언트 디센트 방법과 그 변형들이 딥러닝 모델의 학습에 널리 사용되는 이유입니다. 손실 함수의 그래디언트를 계산하고, 이를 사용해 모델의 가중치를 조정함으로써, 모델을 더 좋은 성능으로 이끌어갈 수 있습니다. 그래디언트 기반 방법 이외에도 몇..

자연어 처리 정리 - 3강 Word embedding 1

이전엔 단순히 encoding만 했다면 이후로는 embedding으로 진행하였다. 주변 단어를 통해 문맥을 얻을 수 있다. 비슷한 문맥 - 비슷한 벡터 representation = 컴퓨터가 이해할 수 있는 표현 == 백터 TD - 특정 문장에 단어가 등장 횟수 유사도는 이렇게 구할 수 있다. 문서가 많아질수록, 단어가 많아질 수록 효율이 떨어진다. 모든 문서에서 많이 나온다 - 가중치가 낮다 -> 일부 문서에서만 나온다 - 가중치가 높다. TF - 얼마나 나오는지 센다 DF - 총 문서에서 얼마나 나왔냐 이것이 word2Vec 방식이다. 파라미터를 embedding으로 사용하는 것이다. 이러한 형태가 나온다. 그럼 word2vec는 수 많은 문장에서 얻어낸 단어들을 원핫 인 코딩 한 후 문장에 구멍을 ..

자연어 처리 정리 - 2강 Text mining

자연어 처리 - 검색엔진 (검색어 - Query와 관련된 글 나열), 번역, 긍 부정 판단, 정보 요약, 질문 답변(GPT) NLP는 여러 학문이 종합되어 있고, 언어(자연어)를 컴퓨터가 이해하는 체계로 넘겨주어(embedding, vector representation) 컴퓨터가 처리 언어의 표현을 어렵게 하는 것 - 엄청난 애매모호함, 복잡한 사회 과정, 동음이의어, 공유 지식

transformer, attention 정리 3

2024.04.11 - [인공지능/공부] - transformer, attention 정리 2 transformer, attention 정리 2 seq2seq - RNN기반 모델 = vanishing gradient problem, 고정된 벡터에 모든 정보 압축하다 보니 정보 손실 발생 이 구조는 입력 문장이 길면 품질이 떨어지게 된다! -> attention 등장 attention value - 단어가 얼마 yoonschallenge.tistory.com 여기 이어서 계속 되는 자료입니다. 자연어 처리에서 순서가 중요하다는 것을 알기 때문에 순서를 집어 넣어준다! 위치정보가 반영된다! 근데 positional encoding을 하면 I가 다른 단어의 embedding과 동일하게 변하는 경우도 생기지 않..

인공지능/공부 2024.04.11

transformer, attention 정리 2

seq2seq - RNN기반 모델 = vanishing gradient problem, 고정된 벡터에 모든 정보 압축하다 보니 정보 손실 발생 이 구조는 입력 문장이 길면 품질이 떨어지게 된다! -> attention 등장 attention value - 단어가 얼마나 중요하냐 query - 입력 key - 모든 말 뭉치들 저거 각각 내적하면 유사도가 나온다. 스코어 = 유사도 - 유사하면 가중치를 크게 주겠다. 스칼라 점수가 튀어나온다. == 어텐션 스코어 합을 1로 만들어 주는 과정이다. 단어 각각을 어느정도 볼 것이냐 여기서 h1은 인코더의 hidden state이다. 임베딩 차원 만큼의 결과가 나온다. 가중치를 곱하여 입력 차원을 맞춰준다. attention의 등장 BUT RNN을 기반으로 사용한..

인공지능/공부 2024.04.11

attention, Transformer 정리 1

attention이 명확하게 정리되지 않아서 일단 다양하게 영상을 보고 정리를 시도해 보려고 합니다... https://youtu.be/6s69XY025MU?si=3vgHGAPVJINkCOl7 이번에도 시작은 이 영상 입니다.. 텐서 기본정보 1. 정보를 나타나는 텐서는 가중지 Weight를 통과해도 이 전의 정보를 가지고 있다. 2. Weight(양수이며 더하면 1)를 곱한 후 더하면 Weight가 큰 곳의 정보를 더 가지고 있다. 3. 내적은 비슷한 정보끼리 하면 커지고, 상관 없는 정보라면 작아진다. -> 내적 : 정보의 비슷한 정도 Query - 정보를 요청한다. 검색어. 계정 정보. key - 서로 다른 정보 몇개. 사이트들 Value Query는 Weight q에 통과시키고, key는 Weig..

인공지능/공부 2024.04.11
728x90
728x90