챕터는 4가지로
1. 머신러닝
2. 딥러닝
3. 텍스트 분류
4. 언어 모델
이다.
1,2는 빠르게 넘어가고 3,4 에서 확실하게 하고 넘어가면 괜찮을 듯 하다.
https://separate-darkness-400.notion.site/6ccceffafe2f41edbc9f4ac2940c7388
이런 것도 정리해서 올려주시네요 좋다...
머신러닝이 비효율적인 예 - 단순 계산기, 시간 계싼, 수수료 계싼 등등 이미 최적화된 알고리즘이 있는 경우
supervised Learning : 입력 값에 대한 출력 값을 매핑하는 모델을 학습하는 방법
Unsupervised Learning : 데이터의 기저에 있는 패턴을 찾는 모델 학습 방법
Self-supervised Learning : predictive learning을 하여 데이터의 기저에 있는 원리, 패턴을 학습하는 모델 방법
비디오의 다음 프레임 예측하기
Reinforcement Learning : 시뮬레이션 할 수 있는 환경이 주어진 상황에서 모델이 환경과 상호작용하며 보상을 얻거나 처벌을 받으며 모델이 환경에서 보상을 최대한 많이 획득하도록 학습하는 방법
Reandom variable
표본공간 sample space
실현값 outcomes
가측 공간 measurable space
이산 확률 변수 Discrete Random variable: 셀수 있는 값을 가지는 확률 변수
모든 확률은 0~1사이고, 모든 확률을 다 더하면 1이다.
확률 질량 함수 Probability Mass Function : 이산 확률 변수로 표현되는 확률 분포는 확률 질량 함수로 표현된다.
연속 확률 변수 Continuous Random Variable: 어떤 구간 사이에 연속적인 값을 가지는 확률 변수
확률은 0이상이고, 적분하면 1이다.
확률 밀도 함수 Probability Density Function: 연속 확률 변수로 표현되는 확률 분포는 확률 밀도 함수로 표현된다.
결합 확률 분포 Joint Probability Distribution : 두개 이상의 랜덤 변수로 이루어진 확률 분포
확통에서 확률 곱하기
조건부 확률 분포 Conditional Probability Distribution : 어떠한 사건이 벌어지고 난 다음의 확률
주변 확률 분포 Marginal probability distribution : 결합 확률에 대해 원하는 한 변수나 몇개의 확률 변수 부분 집합의 확률 분포 알고 싶을 때 주변 확률 분포를 사용한다.
marginalize : 내가 원하는 것이 나올 확률 ? 같은 느낌(결합확률 분포를 통해 모든 경우의 수 확률을 구하고 원하는 것끼리 더하기)
독립independence : 어떤 선택이 다른 선택에 영향을 주지 않는 것
조건에 따라 뒤에 선택이 바뀌는 경우 독립이 아니다.
Joint probability distribution은 conditional distribution 들로 쪼개질 수 있다.
Factorization 중요!
P(x1,x2) = P(x1)P(x2|x1)
P(x1,x2,x3) = P(x1)P(x2,x3|x1) = P(x1)P(x2|x1)P(x3|x1,x2)
만약 여기서 x3혼자 독립인 경 P(x1)P(x2|x1)P(x3)
Bayes' Treorem
발생한 증거 (Evidence, E)를 토대로 가설 (Hypothesis, H)이 발생했을 확률을 계산하는 방법
사건 발생 순서 H->E
P(H|E) = P(E|H)P(H) / P(E)
베르누이 분포 Bernoulli distribution
랜덤 변수가 discrete하고 분류가 2개인 경우
2개니까 두개 합하면 항상 1이고 한개 확률을 알면 나머지는 바로 빼면 1이다.
binomial distribution
bernoulli trial, yes or no
전체 중에 몇번이 일어날 확률
Multinominal distribution
binomal distribution을 일반화
yes/ no 뿐만 아니라 A,B,C 중 하나를 고르는 k개 중 하나를 고르는 확률 분포
p(x1,x2 ... xk, n , p1,p2....pk) = n! /(x1! .... xk!) p1^(x1)...pk^(xk)
Normal distribution = Guassian distribution
자연에서 관찰할 수 있는 많은 분포
확률 질량 함수
beta distribution
0~1 사이 범위를 가진다.
a,b를 어떻게 설정함에 따라 다르게 표현이 가능하다.
정보의 bit 표현
동전의 앞 뒷면 -> 1bit
상태가 4개 -> 00,01,10,11 -> 2bit
즉 상태가 n개 -> log2n bit
확률에 따라 잘 생각하여 비트로 나눠야 한다.
불확실성 (Uncertainty) : 평균적으로 몇 개의 질문을 해야 상태를 알 수 있는지에 대한 정도
self - information
분포 P의 확률로 일어나는 어떠한 사건 x에 대한 정보량 I(x) = -log(P(x)) 대부분의 로그는 2이다.
entropy
불확실한 정도
평균적으로 몇 개의 질문을 해야 정보를 확인할 수 있는지
사건 x를 확률분포 P에 따라 샘플링 했을 때 기대되는 평균 정보량
KL divergence
확률분포 P와 확률 분포 Q의 다름의 정도를 측정하는데 사용
Cross Entropy
확률분포 P와 확률 분포 Q의 다름의 정도를 측정하는데 사용
'인공지능 > 자연어 처리' 카테고리의 다른 글
자연어 처리 - Linear Regression 선형 회귀, Cost function 비용함수 실습 (1) | 2024.01.09 |
---|---|
자연어 처리 - Logistic (0) | 2024.01.07 |
자연어 처리 - 머신러닝 기초, 나이브, k알고리즘, 앙상블, (1) | 2024.01.04 |
자연어 처리 - 모델 평가 (1) | 2024.01.03 |
딥러닝 기초 , rogistic regression, 파라미터, 비용 함수, 학 (1) | 2024.01.03 |