자연어 처리 - 비용 함수 이해하기 라이브러리를 다 불러줍니다 마지막엔 이쁜 그래프 모양을 가져옵니다. 이러한 데이터 입니다. 이번에도 MSE를 사용했습니다. 이제 모델을 만들어 줍시다! 이제 학습하자! 값이 점점 변화하고 있다. weight의 변화를 볼 수 있다. LOSS는 마음대로 선택할 수 있다. 이렇게 랜덤한 값을 가진 것을 만들어 냈다. 원을 만들기 위한 로스를 가졌다. 이렇게 모이게 된다. 이렇게 바꾸면 원으로 모이게 된다. 원! 인공지능/자연어 처리 2024.01.09
자연어 처리 - Linear Regression 선형 회귀, Cost function 비용함수 실습 이 본문은 제가 복습하는 느낌으로 그냥 강의를 캡쳐한 것이라 실제 제가 한 것을 보고 싶다면 아래 링크로 가시면 됩니다. 2023.11.13 - [인공지능/공부] - Linear regression 1 Linear regression 1 import numpy as np import matplotlib.pyplot as plt # ==================== Part 1: Basic Function ==================== print('Running warmUpExercise ... ') print('5x5 Identity Matrix: ') def warmUpExercise(): return np.eye(5)# YOUR CODE HERE warmUpExercise( yoonscha.. 인공지능/자연어 처리 2024.01.09
자연어 처리 - Logistic 많이 봐왔던 타이타닉 데이터로 사용한다. 데이터의 70퍼센트가 비어있다면 탈락시키는 방법이다. 80프로는 채워져있고, 비어있는 값은 중앙 값으로 채워줄 수 있다. 대다수의 값으로 채우는 방법도 있다! 전처리를 재활용할 수 있도록 함수로 만드는 방법이 효과적이다. Exploratory Data Analysis 카테고리별로 데이터를 묶는다. 시각화를 보고 데이터를 파악한다. nun을 전부 28을 넣었기 때문에 28이 엄청 많아졌다. 다양하게 데이터들끼리 묶어서 확인해 볼 수 있다. Feature Engineering sex_to_id에선 male = 0, female =1로 가져서 위와 같은 과정을 거치면 010101로 바꿀 수 있게 된다. 함수를 만들어서 관리한다! 실행하면 지금은 성별에 대한 정보만 남는.. 인공지능/자연어 처리 2024.01.07
자연어 처리 - 머신러닝 기초, 나이브, k알고리즘, 앙상블, Bayes Classifier Logistic regression은 P(y|x)를 바로 근사하도록 학습 bayes classifier는 Bayes' theorem을 활용하여 분류 P(y|x) = p(x|y)P(y) / p(x) p(x) = sum{p(x,y)} = sum {p(x|y)P(y)} 항상 같은 값이다. 많은 경우 p(x)를 계산하기는 어렵다. 하지만 p(x)를 계산하지 않아도 된다. 독립 변수 k가 늘어날수록 차원의 저주가 발생 = 데이터의 요구량 폭증 - k개의 조합의 공간에서 분포를 충분한 근사하기에 요구되는 데이터양이 지수적으로 증가한다. = 2^k개의 확률이 필요하게 된다. 독립 변수 간의 종속성을 제거한다면 차원의 저주를 없앨 수 있다. => Naive Bayes Classifier .. 인공지능/자연어 처리 2024.01.04
자연어 처리 - 모델 평가 모델 평가 모델 학습에 대한 평가를 한다. metric 데이터 셋에 대해 모델의 성능을 평가하는 지표 cost error accuracy precision recall cost error Cost function의 출력밧 모델과 데이터셋 사이의 cost function으로 계산된 차이 accuracy 데이터셋 전체 샘플 갯수 중 모델이 정답을 맞춘 비율 true를 true라 하는지, negative라고 하는지를 보여주는 원이다. precision 모델이 positive라고 예측한 샘플들 중 실제 positive인 비율 recall 데이터셋 전체 positive 샘플 중 모델이 positive라고 예측한 비율 암을 비교할 때 사용 = 잘못된 예측을 해서 정상인을 암이 있다고 하더라도, 모든 암이 있는 사람.. 인공지능/자연어 처리 2024.01.03
딥러닝 기초 , rogistic regression, 파라미터, 비용 함수, 학 classification은 discrete한 부류 k중 n개를 선택하는 문제 binary = 둘 중 하나 multi class = 세 개 이상 중 1개 multi label = 두 개 이상 중 1개 이상 one class = k=1, n=1 지도학습,P(y|x) x가 주어졌을 때 y의 확률 가설 집합 Hypothesis set = decision boundary 이 것을 잘 찾아야 잘 분류한다. 확률을 근사하는 모델을 만들기 위해 모델은 0~ 1의 범위를 가지는 출력을 해야 한다=> sigmoid 사용 0과 1로 분류해준다. 기본적인 식들은 이미 이전 글에 다 작성해 놨기 때문에 그건 링크로 남겨놓겠다. 2023.12.13 - [인공지능/공부] - 인공지능 중간고사 개념 정리 음 깔끔하게 정리해 놓은 .. 인공지능/자연어 처리 2024.01.03
자연어 처리 시작, 인공지능에 필요한 수학 개념 챕터는 4가지로 1. 머신러닝 2. 딥러닝 3. 텍스트 분류 4. 언어 모델 이다. 1,2는 빠르게 넘어가고 3,4 에서 확실하게 하고 넘어가면 괜찮을 듯 하다. https://separate-darkness-400.notion.site/6ccceffafe2f41edbc9f4ac2940c7388 초격차 패키지 : 자연어 처리 트렌드 정리 | Built with Notion Built with Notion, the all-in-one connected workspace with publishing capabilities. separate-darkness-400.notion.site 이런 것도 정리해서 올려주시네요 좋다... 머신러닝이 비효율적인 예 - 단순 계산기, 시간 계싼, 수수료 계싼 등등 이미 최적.. 인공지능/자연어 처리 2024.01.03