반응형

2024/04 154

고급 인공지능 활용 과제 5 - 분류하기, 클러스터링

from google.colab import drive drive.mount('/content/drive') import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/titanic.csv') data = data.drop(['Name','Ticket'],axis=1) # 이름과 티켓 값은 생존과 관련 없기 때문이다. data = pd.get_dummies(data,columns=['Sex','Embarked'],drop_first = True)# 데이터 세분화 하면서 데이터 갯수 줄이기 (남자..

인공지능/공부 2024.04.13

고급 인공지능 활용 과제 4 - knn, 결정트리, 로지스틱 회귀

로지스틱 및 KNN은 과제 3에서 진행했으므로 빠르게 결과를 볼 수 있도록 진행한다. 로지스틱 회귀 import pandas as pd from google.colab import drive drive.mount('/content/drive') data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/titanic.csv') data = data.drop(['Name','Ticket'],axis=1) # 이름과 티켓 값은 생존과 관련 없기 때문이다. data = pd.get_dummies(data,columns=['Sex','Embarked'],drop_first = True)# 데이터 세분화 하면서 데이터 갯수 줄이기 (남자 여자에서 하나 지우고, 3개중..

인공지능/공부 2024.04.13

고급 인공지능 활용 과제 3 - 로지스틱 회귀, KNN 알고리즘, 스케일링

import pandas as pd from google.colab import drive drive.mount('/content/drive') data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/titanic.csv') ###로지스틱 회귀 모델 data = data.drop(['Name','Ticket'],axis=1) # 이름과 티켓 값은 생존과 관련 없기 때문이다. data = pd.get_dummies(data,columns=['Sex','Embarked'],drop_first = True)# 데이터 세분화 하면서 데이터 갯수 줄이기 (남자 여자에서 하나 지우고, 3개중에 하나 지우기) data.head() data.corr() # 데이터 간의..

인공지능/공부 2024.04.13

자연어 처리 정리 - 8강 Machine Translation with RNN

continuous inputs - time series - 날짜, 주가 등 시간의 순서가 있는 data 마지막은 각각의 인풋이 새로운 결과를 만든다. 여기서 Whh, Wxh, Wyh 등 모든 파라미터는 이전 에 사용했던 것과 동일하다. 기본적인 RNN 구조에서 parameter vector는 입력에 한개, 이전 입력에 대해 넘어 오는 것에서 한개, 출력으로 보내는 것에 한 개 있잖아 그럼 이 파라미터들은 t-1 시점이랑 t 시점이랑 값이 똑같은거야? 기본적인 RNN(Recurrent Neural Network) 구조에서는 시간에 따라 입력되는 다양한 시점의 데이터를 처리할 때, 모든 시점에서 같은 파라미터(가중치)를 공유합니다. 이는 RNN의 핵심 특징 중 하나로, 시간적으로 연속적인 데이터를 처리할 ..

자연어 처리 정리 - 7강 Text classification with CNN

타 딥러닝, 머신러닝에서 사용했던 classification과 차이는 없다. classification - 2개 중 한 개, 여러 개 중 한 개, 여러 개 중 여러 개 정확도 - 단순하게 전체 중 정답을 맞춘 정도 정밀도 - 참이라고 예측, 판단한 것 중 참인 것 ex) 프로그램이 암이라고 예측한 사람들 중 진짜 암인경우 재현율 - 참인데 참이라고 맞춘 것 ex) 암에 걸린 사람들 중 예측 프로그램이 얼마나 맞췄냐 precision 정밀도 - 정확성이 중요한 경우 - 참이라고 예측한 경우 중 참인 확률 recall 재현율 - 최대한 많은 옵션을 주는 경우 - 참을 참이라고 예측한 확률 그냥 평균하몬 된다. B의 영향이 너무 커지긴 한데... 한 개의 카테고리만 가지지 않는다. Embedding -> Co..

자연어 처리 5강 - Deep Learning Recap 1

Evaluation - Forward propagation == inference 추정하다. exp 사용하는 이유는 최대값에 민감하게 반응하기 때문이ㅏㄷ loss = prediction과 label을 비교하여 차이를 구한다. cross entropy loss를 줄이는 방향으로 학습한다. 항상 경사 하강법을 사용하는 것은 아니다! 그러나 특정 상황에서만 쓴다. 네, 딥러닝에서 파라미터 최적화는 주로 손실 함수의 그래디언트(미분값)를 이용한 방법에 의존합니다. 이는 그래디언트 디센트 방법과 그 변형들이 딥러닝 모델의 학습에 널리 사용되는 이유입니다. 손실 함수의 그래디언트를 계산하고, 이를 사용해 모델의 가중치를 조정함으로써, 모델을 더 좋은 성능으로 이끌어갈 수 있습니다. 그래디언트 기반 방법 이외에도 몇..

자연어 처리 정리 - 3강 Word embedding 1

이전엔 단순히 encoding만 했다면 이후로는 embedding으로 진행하였다. 주변 단어를 통해 문맥을 얻을 수 있다. 비슷한 문맥 - 비슷한 벡터 representation = 컴퓨터가 이해할 수 있는 표현 == 백터 TD - 특정 문장에 단어가 등장 횟수 유사도는 이렇게 구할 수 있다. 문서가 많아질수록, 단어가 많아질 수록 효율이 떨어진다. 모든 문서에서 많이 나온다 - 가중치가 낮다 -> 일부 문서에서만 나온다 - 가중치가 높다. TF - 얼마나 나오는지 센다 DF - 총 문서에서 얼마나 나왔냐 이것이 word2Vec 방식이다. 파라미터를 embedding으로 사용하는 것이다. 이러한 형태가 나온다. 그럼 word2vec는 수 많은 문장에서 얻어낸 단어들을 원핫 인 코딩 한 후 문장에 구멍을 ..

728x90
728x90