반응형

인공지능 647

생성형 인공지능 1주차 2 - 생성형 인공지능이란?

오토 인코더가 좀 더 쉽게 시작할 것 같은데 GPT는 구조가 어려워서..... 요즘 영상이랑 음악도 어마무시하게 발전하고 있더라구요..... GAN - CNN을 연결하여 만든 네트워크 Autoencoder - 인코더 + 디코더 = 생성 GAN : 인코더의 피드백을 통한(? 판별) 원하는 영상 제작 VAE : 노이즈를 제거, 특성 변환 Flow based Models : ? Diffusion Models : 가장 정밀한 모델이다. 보안에서 결국엔 GPT도 인터넷에서 모아온 데이터로 학습하는건데 정보의 접근성이 쉬워져서 문제가 된다는 건가...?

인공지능/공부 2024.03.08

생성형 인공지능 1주차 1 - 생성형 인공지능이란? CHAT GPT란?

생성형 인공지능 = Generative AI LLM이전에는 그렇게 모델이 크지 않았다. LLM이후로 서비스의 폭이 늘어났다. GPT = Generative Pre-trained Transformer GPT 전 모델은 BERT (Bidirectional Encorder Representations from Transformers) 사용자 query(텍스트)를 기반으로 텍스트 응답을 형성 지금의 GPT3.5는 Query에 따라 사전적인 방식으로 대답을 한다. 인코더 - 외부의 글자를 코딩한다. 학습을 할 때만 사용한다. 디코더 - 인코더 된 정보를 통해 생성한다. Masked MSA- 가린뒤 맞추는 방식. 파인 튜닝이 중요하다! 미세조정을 통해 많은 상업적인 결과의 차이도 보고 있다. 이 한계를 극복하기 위..

인공지능/공부 2024.03.08

임베딩이란? - 임베딩 구축 방법 2 - 분포 가설과 언어 모델

목표 - 분포 가설에 기반한 임베딩 구축 방법과 언어 모델 기반의 임베딩 구축 방법에 대해 이해하기 2번이랑 3번이랑 중요도가 살짝 애매하네유 주변 단어를 통해 뜻을 유추할 수 있다. 독립적이면 서로 관련 없는 단어로 볼 수 있고, 확률이 높다면 의미가 연결되어 있다고 볼 수 있다. CBOW - 중심 단어를 주변 단어를 통해 유추한다 SKIP gram - 중심 단어를 통해 주변 단어를 유추한다. 엄청나게 작은 확률로 등장할 것 입니다.. 문장이 길수록 확률이 점점 낮아지기 때문에 n-gram을 통해 제한하게 되면 확률이 많이 높아지게 된다. 근본적으론 빈도 기반이다.

임베딩이란 ? - 임베딩 구축 방법 1 - 단어의 출현 빈도

목표 - 단어의 출현 빈도가 중요하다는 가설에 기반한 임베딩 구축 방법에 대해 이해하자 주제가 비슷한 문서라면 출현 횟수가 비슷할 것이라는 전제가 깔려있다. 행렬이 너무 크기도 하고, 정보의 양도 적어 효율성이 너무 떨어진다. 중복 원소를 포함한다. 출현 횟수로 표현하는 것이다. 코퍼스 범위에서 문서 범위로 줄인 것이다. the 같은 의미가 적지만 출현 횟수가 높은 것들이 종요하다고 보일 수 있다. 빈도 이상의 무엇인가를 고려한다. 단어의 중요도와 비례한다. n이 엄청 커서 log를 씌워 스케일링하는 것이다. 여기서 로그는 10의 로그네요 단어 문서 행렬에 idf값이 들어가는 것이다. 유사도가 좀 더 높긴 하다. 맥락적 유사도를 반영하지 못하는 것이 큰거 같은데. 그리고 행렬도 아직도 너무 크고

자연어 처리 python - 컴퓨터는 자연어를 어떻게 이해하는가?

목표 - 자연어를 컴퓨터가 이해할 수 있게 수치화하는 이유와 수치화의 방식인 임베딩을 이해하기 아스키 코드는 구분을 해줄 뿐 의미를 담고있지 않다. 이차원 벡터화를 안하고 저렇게 표현하나....? 일단 아스키 코드로 변환하는 것 보다 의미를 담을 수 있게 된다. 벡터화 간의 사직연산이 가능하다! 언어학적 지식들이 점점 불필요해졌다. - 다량의 데이터로 해결

인공지능 빅데이터 1주차 3차시 - 인공지능 시스템

퍼셉트론으로 시작하여 알파폴드 2로 끝나는 6개가 나온다. 가장 간단한 형태의 네트워크이다. 하드웨어로 구성된 최초의 인공신경망이었다. A, B, C 등 문자 이미지 인식이 가능해서 관심을 받았다. 규칙 기반 인공지능이다. 컴퓨터가 사람을 이긴 적이 없기 때문에 전 세계적인 관심을 받게 되었다. 70만 번 이상의 게임을 내장하였다. - 그 당시의 빅 데이터이다. 방대한 지식에 기반해 논리 판단에 따른 추론을 진행했다. 아직까지 업데이트되고 있다. 이세돌 9단과의 대국에서 승리하였다. 많은 대국 정보가 빅데이터로 사용되었다. 인공지능 소프트웨어와 하드웨어 능력의 결합이다. 바둑과 같은 많은 경우의 수를 해결하는 일은 처음이었다. 빅데이터와 인공지능 기술의 결합 때문이었다. 16만 개의 기보 == 3000만..

인공지능/공부 2024.03.06

인공지능과 빅데이터 1주차 2차시 - 인공지능의 역사

인공지능은 과학, 의학, 교육 및 산업을 포함한 전 분야에 관련되어 있다. 인공지능은 4차 산업혁명의 핵심 기술로 중요하게 여겨지고 있다. 인공지능을 처음 접하는 사람은 새로운 최신의 기술로 여겨질 것이나 사실 1950년대부터 시작하여 꾸준하게 발전한 오래된 기술이다. 신경망 연구에서의 문제로 첫번째 겨울을 맞이하게 된다. 다층신경망은 잘 되었지만 더 복잡하게 하려고 했더니 문제가 생겼다. 그리하여 두번째 겨울이 생기게 되었다. 복잡한 신경망을 학습하는 기술이 나왔고, 2011년부터 다양한 어플리케이션이 나오고 있다. 인공지능의 준비기 -AND, OR, NOT으로 뉴런을 연결하면 인간의 두뇌를 따라할 수 있다. 엘렌 튜링의 인간과 기계의 대화 가능성을 제시, 튜링 테스트를 제시 - 인공지능을 실질적으로 ..

인공지능/공부 2024.03.06

인공지능과 빅데이터 1주차 1차시 - 교과목 소개

인공지능 - 빅 데이터를 기반으로 유의미한 결과를 도출하는 기술 사물인터넷 = IoT = Internet of Things iot = 인터넷에 연결되어 데이터를 공유할 수 있는 사물 M2M - 기기간 상호 연결이 되어있지만 인터넷에 정보 공유 X=> 폐쇄성 == 기술의 보급이 느리다. IOT - 기본적으로 인터넷에 연결하여 통신할 수 있다. => 연결성 == 통신프로토콜을 따로 구현할 필요가 없다. IOT 네트워크 : 인터넷을 통해 액세스하는 물리적 개체의 네트워크 공항, 가게, 홈 네트워크, 공장 등 IOT 네트워크가 없는 분야가 없다. 핸드폰 사용자가 많은 것을 활용한 MCS가 있다. IOE = internet of everything 만물 인터넷 사물과 사람, 데이터, 프로세스 등 연결가능한 모든 ..

인공지능/공부 2024.03.06

컴퓨터는 자연어를 어떻게 이해하는가? - 자연어 특성

목표 - 자연어에서 단어의 의미와 단어 간 유사성과 모호성에 대해 이해할 수 있습니다. 백터화? 배, 말과 같은 단어들을 벡터에 모든 의미를 담기 어려울 수 있다. 통계적으로 많이 사용되는 뜻은 있겠지만 일단 배의 의미는 10개나 된다. 모델 입장에서 이러한 단어들의 관계 파악은 너무 힘들어지는 것이다. 동음이의어를 통한 데이터 증강도 가능하다! 데이터양이 적었을 경우 이러한 시도들이 많았다. 요즘 데이터가 많아서 데이터를 때려 박아 해소하기도 한다. 단어의 계층과 의미를 한눈에 알 수 있게 해 준다. 계속 업데이트가 필요하다!, 맥락적으로 이해해야 하는 것들을 표현할 수 없다. 좋은 성능을 위해서 레이블이 좋아야 한다.

728x90
728x90