반응형

소프트웨어 944

인공지능과 빅 데이터 3주차 2차시 - 지식 표현과 추론, 지식 표현의 불확실성

논리를 이용한 지식 표현과 추론 명제 논리 - 참 거짓을 분명하게 판정할 수 있는 문장 논리 합, 곱, 부정 나오네요 술어 - 대상의 속성이나 대상 간의 관계를 함수 형태로 나타낸다. 인공지능은 논리를 바탕으로 추론해야 한다. 규칙을 이용한 지식 표현과 추론 규칙의 나열 - 조합하여 그래프로 표현할 수 있다. 그래프 표현이 직관적이고 쉽다. 의미망을 이용한 지식 표현과 추론 직접적인 연결은 없어도 상위 개념을 통해 연결되어 있다면 가능하다고 볼 수 있다. 팽귄이면 조류다. 조류는 알을 낳는다. 지식이 풍부해질 수록 연결이 더욱 많아진다. 지식을 그대로 글로 표현한 것은 활용하기에 굉장히 어렵다. 지식 표현의 불확실성 오리너구리가 예시가 될 수도 있겠네요 복잡한 대상, 지식 표현은 불확실한 것이 분명히 있..

인공지능/공부 2024.03.18

인공지능과 빅 데이터 3주차 1 - 규칙 기반 시스템, 지식 기반 시스템

마이신 - 혈액 감염 진단과 치료를 위한 처방을 목적으로 하는 의학 전문가 시스템 의사 없이도 진단 및 판단을 한다. 규칙 기반 시스템의 대표적인 예시이다. 머신러닝 = 많은 데이터에서 규칙을 찾는다. 사람이 디자인 한다! -> 그럼 그게 인공지능인가? 주입하지 않은, 학습하지 않은 상황에 대해서도 대처를 한다. 스스로 추론을 통해 알아낸 것이다. 머신러닝은 데이터를 먼저 접근한다. 우유를 많이 먹었다면 그렇다라고 하겠죠 아주 단순한 기술엔 단순 프로그래밍 구현으로도 충분하다. 고차원 기능, 판단이 필요한 문제엔 AI가 활용된다. 딥페이크, 수많은 데이터 수집을 하기엔 Rule based AI를 활용하기엔 무리가 있다. 지식 - Rule based AI를 구축하는데 기반이 된다. 이것도 강화학습처럼 경험..

인공지능/공부 2024.03.18

자연어 처리 python 실습 - 워드 임베딩 시각화

워드 임베딩 시각화 Introduction Chapter 4. 단어 임베딩 만들기 강의의 워드 임베딩 시각화 실습 강의입니다. 이전 실습에서처럼 (1) 단어 임베딩의 대표적인 방법인 Word2Vec을 활용하여 워드 임베딩을 직접 구축해보고, (2) 이번 실습에서는 구축한 워드 임베딩을 2차원으로 시각화하여 임베딩의 품질을 보다 정교하게 측정해보겠습니다. 이후 실습의 용이성을 위해 한국어 글꼴을 설치합니다! !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 1. 한국어 워드 임베딩 구축 워드 임베딩 구축 과정은 지난 실습에서 다뤘으므로, 이번 실습에서는 빠르게 구축을 진행해볼게요! 오늘 사용할 학습 데이터셋..

자연어 처리 python 실습 - 한국어 Word2Vec 임베딩 만들기

한국어 워드 임베딩 구축 Introduction Chapter 4. 단어 임베딩 만들기 강의의 첫 번째 실습 강의인 한국어 워드 임베딩 구축 강의입니다. 강의에서 배웠던 단어 임베딩의 대표적인 방법인 Word2Vec을 활용하여 영어와 한국어 워드 임베딩을 직접 구축해보고 임베딩의 품질을 평가합니다. 1. 영어 워드 임베딩 구축 한국어 워드 임베딩을 만들기 전에 영어 워드 임베딩을 구축하며 임베딩 구축에 대한 감을 익혀봅시다. 간단한 실습을 위해, scikit-learn 패키지에서 제공하는 20 newsgroup를 활용합니다. import pandas as pd import numpy as np from sklearn.datasets import fetch_20newsgroups dataset = fetc..

자연어 처리 python - 워드 임베딩 만들기 - GloVe

빈도기반 - 유의미한 단어의 변환이 있어도 유사도가 비슷하게 나온다. word2vec는 n을 설정하기 때문에 전체를 반영하지 못한다. 이럼 행렬이 엄청 커질거 같은데.... (중심)like 전체 등장 횟수중 (주변)deep과 등장한 횟수으로 1/3으로 봐서 동시 등장한 확률을 볼 수 있다. 결국 어떤 단어가 등장했을 때 어떤 단어가 등장할 확률을 구할 수 있다.

자연어 처리 python - 워드 임베딩 만들기 - Fast Text

목표 - 대표적인 단어 임베딩 방법론인 FastText의 작동 원리를 이해할 수 있다. 여기서 n-gram은 단어단위 이다. 학습을 이전의 방식(skip gram)보다 훨씬 많이 할 수 있다. C = 주변 단어 유사도 = 코사인유사도 -> 단어에 대한 여러 벡터와 주변 단어 모든 벡터를 내적 여기선 분자를 최대화 해야 한다. -> 내적을 최소화 한다.

딥러닝 개론 복습 1

딥러닝은 깊은 신경망이 있다는게 특징입니다. 이렇게 봐도 너무 애매한데 이럴때 GPT죠 여우와 토끼 사진을 구분한다고 할 때 머신러닝은 인간이 사진을 보고 사진에서 토끼의 귀 길이, 여우의 귀 길이, 색, 크기 등을 컴퓨터에 입력해줘야 하는거고 딥 러닝은 사진만 던져주면 알아서 하는거야? 네, 맞습니다! 머신러닝과 딥러닝을 여우와 토끼의 사진을 구분하는 상황으로 비교하면, 다음과 같이 설명할 수 있습니다: 머신러닝에서는 사람이 특징(feature)을 직접 정의하고 추출해야 합니다. 예를 들어, 여우와 토끼를 구분하기 위해 사람이 귀의 길이, 색, 크기 등을 사전에 정의한 특징으로 결정하고, 이 데이터를 기반으로 컴퓨터가 학습하여 여우와 토끼를 구분하게 됩니다. 이 과정에서 중요한 것은 얼마나 유의미하고 ..

인공지능/공부 2024.03.14

자연어 처리 python - 워드 임베딩 만들기 - Word2Vec(CBOW, Skip-gram)

희소 벡터의 문제를 해결! 기본적인 분포 가설이다. CBOW - 주변 단어를 보고 학습 단어를 배우겠다. skip -gram - 중심 단어를 보고 주변 단어를 배우겠다. 토큰화를 잘 하기 위해 강아지가 -> 강아지 학습데이터도 늘리고, 관계도 만들 수 있다. 딥러닝이 아니라 하나의 앝은 레이어를 가진 머신러닝이라고 볼 수 있다. 단순한 원 핫 벡터를 사용한다. 인풋 레이어에서 프로젝션 레이어로 어떻게 메핑할까가 중요하다. 여기선 강아지를 보고 작고, 귀여운, 문, 앞에가 나와야 한다. 학습기회가 많아짐으로써 조정, 오차 잡는 것을 따라잡을 수 없다. 중의성, 모호성을 많이 녹여내진 못했다. 학습데이터에 없다면 학습하기 어렵다. 새로운 단어가 생기면 재 학습해야 한다. 빈도가 적으면 단어를 확실하게 학습하..

자연어 처리 - 워드 임베딩 만들기 - 워드 임베딩이란?

임베딩을 하는 과정도 결국 인코딩의 하나긴 하네요 강아지에 1이 왜 두갠지 모르겠지만 하나만 1 이어야 할 텐데... 모델은 그 많은 사전 중에 하나를 찾아야 하기 때문에 효율이 너무 감소 단어의 중의성, 모호성 등 어렵게 만드는 요소들을 표현하지 못한다. 여기선 5차원으로 표현했네요 여기에 중의성과 모호성도 포함되어 있습니다. 일반화 - 모호성과 중의성을 포함한다. 행렬을 축소하는 곳에서 많이 사용되는 방식이다. 학습되기 전에는 랜덤으로 선택하긴 하지만 학습하면서 점차 위치를 잡게 된다. 임베딩 = 단어 길이 * 내가 원하는 차원 개수 20개가 안되면 패딩을 채워 넣는다.

자연어 처리 python 실습 - BERT 모델의 임베딩 간 유사도 측정

BERT 모델의 임베딩 간 유사도 측정 Introduction Chapter 3. 컴퓨터는 자연어를 어떻게 이해하는가 강의의 BERT 모델의 임베딩 간 유사도 측정 실습 강의입니다. 강의에서 배웠던 여러 가설 기반 임베딩을 직접 구축해보고, 구축한 임베딩을 활용하여 문장 간 유사도를 계산합니다. 추가로, 구축 방법 별 유사도 경향을 분석하여 임베딩에 대한 이해도를 높입니다. 1. 문서 집합 구축 테스트할 다양한 문장(문서)들에 대한 문서 집합을 구축합니다. 자연어의 특성인 유사성과 모호성을 잘 설명할 수 있도록 문장 예시들을 구성합니다. 의미가 유사한 문장 간 유사도 계산 (조사 생략): (sen_1, sen_2) 의미가 유사한 문장 간 유사도 계산 (순서 변경): (sen_1, sen_3) 문장 내 단..

728x90
728x90