반응형

2024/04 154

Back propagation 손으로 하나하나 적어보기

단순하게 이렇게 이어진 네트워크가 있다고 가정하겠습니다. 입력은 x, 가중치와 곱해진 값들은 z, activation함수를 통과하면 h, 출력값은 y_hat입니다. 일단 이 경우에는 loss function으로 binary Cross entropy와 MSE를 사용하는 2가지 경우로 볼 수 있죠 그럼 가장 가까운 가중치인 3번째 layer의 첫번째 node에서 나오는 weight를 업데이트 해봅시다. 일단 loss function을 미분해야죠 벌써 지저분.. 그리고 Prediction y (y hat)를 미분합니다. 이것은 z값에 sigmoid를 씌운 값으로 sigmoid 미분을 진행합니다. sigmoid 미분은 하려고하면 귀찮지만 외우면 단순합니다.. 그럼 이제 마지막으로 파라미터로 미분을 때려주면 이전..

인공지능/공부 2024.04.17

자연어 처리 중간고사 애매한 것 정리하기

TF-IDF 에서 로그의 N/D는 (전체 문서 개수)/(나온 문서 개수)이다. Fast Text임베딩은 모든 임베딩이 다있을 때 새로운 단어에 대한 임베딩은 저렇게 n-gram으로 나눠서 만들 수 있다. 흠 모델 관련 문제가 나올지는 모르겠는데... 단어 임베딩은 많은 모델(MLP, CNN, RNN, 로지스틱 회귀)에서 원 핫 인코딩으로 대체할 수 있습니다. • 하위 단어 임베딩을 사용하면 훈련 데이터에 없는 단어에 대한 임베딩을 만들 수 있습니다. 훈련하는 데 훨씬 적은 데이터가 필요합니다. • 주의는 일련의 표현을 형성할 때 어떤 부분에 더 주의를 기울여야 하는지 배울 수 있는 메커니즘을 제공합니다. • BiLSTM은 단어 임베딩을 문맥에서의 사용에 민감하도록 변환할 수 있습니다. • 정적 단어 임베..

자연어 처리 중간고사 정리 2

2024.04.15 - [인공지능/자연어 처리] - 자연어 처리 중간 정리 1 자연어 처리 중간 정리 1 2강 - Text mining 자연어 처리 - 사람의 언어를 컴퓨터가 이해할 수 있는 체계인 숫자로 변환하여 번역, 감성분석, 정보 요약 등 다양한 TASK를 처리하는 것 컴퓨터가 이해할 수 있는 체계로의 변환 == yoonschallenge.tistory.com 언어의 특성 - 동음이의어, 사회적 지식, 모호성 단어 -> 형태 -> 문법 -> 의미 -> 대화 품사, 이름, 문법 통계에 기반한 embedding 방식 onehot encoding - 그저 index. 차원이 너무 많다. TD - 통계에 기반한 단어 등장 횟수로 표현한 임베딩. TF- IDF : 이것도 통계에 기반한 임베딩으로 차원이 아..

자연어 처리 중간고사 대비 Chat GPT 퀴즈

퀴즈 문제와 해설 퀴즈: NLP에서 '단어 임베딩'이란 무엇인가요? 답: 단어의 의미를 벡터 형태로 표현하는 방법입니다. 해설: 단어 임베딩은 텍스트 데이터를 숫자로 변환하여 컴퓨터가 이해할 수 있도록 하는 과정입니다. 각 단어는 고정된 크기의 벡터로 표현되며, 이 벡터는 단어의 의미적 특성을 반영합니다. 퀴즈: RNN(Recurrent Neural Network)의 주요 특징은 무엇인가요? 답: 연속적인 데이터에 대해 이전의 정보를 기억하면서 학습할 수 있는 능력을 가지고 있습니다. 해설: RNN은 시퀀스 데이터 처리에 적합한 신경망 구조로, 이전 시점의 출력을 현재 시점의 입력으로 사용하여 시퀀스 내의 정보를 연속적으로 처리합니다. 퀴즈: 텍스트 요약에서 '추출적 요약'과..

Chat GPT 통한 자연어 처리 중간고사 OX, 빈칸 퀴즈 문제

너무 말도 안되는 문제들은 다 빼버렸습니다... 빈칸 문제 NLP는 ____, 기계학습, 언어학, 사회과학/인문학과 같은 다양한 학문이 융합된 분야입니다. 정답: 인공지능 문장 "One morning I shot an elephant in my pajamas"에서 "shot"는 ____의 문제를 예시로 들 수 있습니다. 정답: 모호성 NLP의 주요 작업 중 하나는 ___인식이며, 이는 텍스트에서 특정 정보를 식별하는 작업입니다. 정답: 개체명 텍스트 분석, 음성 인식, 대화 번역은 모두 NLP에서 ____를 위한 대표적인 예입니다. 정답: 표현 OX 문제 NLP에서 "processing as representation"은 언어를 컴퓨터와의 상호작용을 위해 전달하는 과정을 말한다. (O/X) 정답: O "..

딥러닝 개론 6강 - 합성곱 신경망 CNN 1

2차원 공간상의 위치정보를 고려해야하는 data에 대해서 효과적으로 사용된다. 단순한 계산 과정을 보여준다. 서브 샘플링 - 데이터 수를 줄인다. 풀링은 모든 layer에 사용하는 것은 아니고 필요할 때 적절하게 사용한다. 패딩을 할 순 있지만 안 할뿐 배치 정규화가 생각보다 시간 많이 사용하니까 적당히 쓰기 겅중 겅중 뛰어 다니는 것 입 출력 사이즈 조절 및 가장 자리 feature의 인식률 Up 입력 사이즈가 필터를 거칠수록 작아진다 -> 패딩으로 막는다. 사이즈가 유지된다. 수용 영역이 넓어진다. -> 깊이의 한계가 생긴다. weight 수가 확 줄었다. == 학습시켜야 할 파라미터가 줄었다. But filter 수가 늘면 파라미터가 는다. 위치가 어디있든 feature는 똑같이 추출된다. 1. 파..

인공지능/공부 2024.04.16

딥러닝 개론 5강 - 초기화와 정규화

초기 값이 얼마인지에 따라 결과가 천차 만별이다. 편향성을 주게 된다. 너무 작은 값으로 계속 곱하면 0에 모이게 된다. 비슷하다 -> 구분이 안간다 -> 예측에 활용될 수 없다. 가중합을 하면서 수가 엄청 커진다. 이것도 중앙으로 모여야 하는데 양 끝으로 값이 벌어진다. 계층을 통과할 때 마다 음수가 날라간다. overfitting == 일반화 오류가 크다. 오리지널의 라벨을 가지고 가는데 6이 너무 회전하면 헷갈리니까 한계를 정해야 한다. 독립 -> 편향제거 다 다른 모델을 넣어도 되고, 모양이 같은 모델을 넣어도 된다. 같은 데이터 -> 입력 데이터를 독립적으로 독립성이 중요하다 드롭아웃은 통상적으로 20퍼 사용한다. 네트워크 초반 - 일반화를 위해 출력단 - 소프트 레이블링

인공지능/공부 2024.04.16

딥러닝 개론 3강 - 신경망(딥러닝, 머신러닝) 학습

이미지에서 설명하는 내용은 이항 분류(binomial classification) 문제에서의 클래스 결정 방식과 클래스 확률을 계산하는 과정을 나타냅니다. 주어진 입력 ( X )에 대해 두 클래스 ( Y_1 )과 ( Y_2 ) 중 어느 쪽에 속하는지 결정하는 과정이며, 확률적 관점에서 접근합니다. 확률 ( P(Y_1|X) )는 입력 ( X )가 주어졌을 때 클래스 ( Y_1 )에 속할 조건부 확률입니다. 이는 베이즈 정리를 사용하여 다음과 같이 계산할 수 있습니다: [ P(Y_1|X) = \frac{P(X|Y_1)P(Y_1)}{P(X)} ] 여기서 ( P(X|Y_1) )은 클래스 ( Y_1 )이 주어졌을 때 입력 ( X )가 관측될 확률이고, ( P(Y_1) )은 클래스 ( Y_1 )의 사전 확률입니다...

인공지능/공부 2024.04.16

딥러닝 개론 2강 - 순방향 신경망 forword propagation

XOR은 단층 신경망으론 절대로 못 만든다... 비선형성을 추가해주는 activation function! 영향력을 조절한다... 좋네요 x0 = 1 w0= bias다. sigmoid보다는 도함수가 조금 더 크다. 이건 둘중 하나만 구분할 때 사용한다. 마지막 레이어의 노드가 하나만 있어야 한다. 사진과 같은 경우에는 모든 픽셀을 다 맞출 필요가 없다 즉 loss function의 구조를 다시 만든다 ex) cos 유사도

인공지능/공부 2024.04.16
728x90
728x90