반응형

2024/03/06 6

자연어 처리 python - 컴퓨터는 자연어를 어떻게 이해하는가?

목표 - 자연어를 컴퓨터가 이해할 수 있게 수치화하는 이유와 수치화의 방식인 임베딩을 이해하기 아스키 코드는 구분을 해줄 뿐 의미를 담고있지 않다. 이차원 벡터화를 안하고 저렇게 표현하나....? 일단 아스키 코드로 변환하는 것 보다 의미를 담을 수 있게 된다. 벡터화 간의 사직연산이 가능하다! 언어학적 지식들이 점점 불필요해졌다. - 다량의 데이터로 해결

인공지능 빅데이터 1주차 3차시 - 인공지능 시스템

퍼셉트론으로 시작하여 알파폴드 2로 끝나는 6개가 나온다. 가장 간단한 형태의 네트워크이다. 하드웨어로 구성된 최초의 인공신경망이었다. A, B, C 등 문자 이미지 인식이 가능해서 관심을 받았다. 규칙 기반 인공지능이다. 컴퓨터가 사람을 이긴 적이 없기 때문에 전 세계적인 관심을 받게 되었다. 70만 번 이상의 게임을 내장하였다. - 그 당시의 빅 데이터이다. 방대한 지식에 기반해 논리 판단에 따른 추론을 진행했다. 아직까지 업데이트되고 있다. 이세돌 9단과의 대국에서 승리하였다. 많은 대국 정보가 빅데이터로 사용되었다. 인공지능 소프트웨어와 하드웨어 능력의 결합이다. 바둑과 같은 많은 경우의 수를 해결하는 일은 처음이었다. 빅데이터와 인공지능 기술의 결합 때문이었다. 16만 개의 기보 == 3000만..

인공지능/공부 2024.03.06

인공지능과 빅데이터 1주차 2차시 - 인공지능의 역사

인공지능은 과학, 의학, 교육 및 산업을 포함한 전 분야에 관련되어 있다. 인공지능은 4차 산업혁명의 핵심 기술로 중요하게 여겨지고 있다. 인공지능을 처음 접하는 사람은 새로운 최신의 기술로 여겨질 것이나 사실 1950년대부터 시작하여 꾸준하게 발전한 오래된 기술이다. 신경망 연구에서의 문제로 첫번째 겨울을 맞이하게 된다. 다층신경망은 잘 되었지만 더 복잡하게 하려고 했더니 문제가 생겼다. 그리하여 두번째 겨울이 생기게 되었다. 복잡한 신경망을 학습하는 기술이 나왔고, 2011년부터 다양한 어플리케이션이 나오고 있다. 인공지능의 준비기 -AND, OR, NOT으로 뉴런을 연결하면 인간의 두뇌를 따라할 수 있다. 엘렌 튜링의 인간과 기계의 대화 가능성을 제시, 튜링 테스트를 제시 - 인공지능을 실질적으로 ..

인공지능/공부 2024.03.06

인공지능과 빅데이터 1주차 1차시 - 교과목 소개

인공지능 - 빅 데이터를 기반으로 유의미한 결과를 도출하는 기술 사물인터넷 = IoT = Internet of Things iot = 인터넷에 연결되어 데이터를 공유할 수 있는 사물 M2M - 기기간 상호 연결이 되어있지만 인터넷에 정보 공유 X=> 폐쇄성 == 기술의 보급이 느리다. IOT - 기본적으로 인터넷에 연결하여 통신할 수 있다. => 연결성 == 통신프로토콜을 따로 구현할 필요가 없다. IOT 네트워크 : 인터넷을 통해 액세스하는 물리적 개체의 네트워크 공항, 가게, 홈 네트워크, 공장 등 IOT 네트워크가 없는 분야가 없다. 핸드폰 사용자가 많은 것을 활용한 MCS가 있다. IOE = internet of everything 만물 인터넷 사물과 사람, 데이터, 프로세스 등 연결가능한 모든 ..

인공지능/공부 2024.03.06

컴퓨터는 자연어를 어떻게 이해하는가? - 자연어 특성

목표 - 자연어에서 단어의 의미와 단어 간 유사성과 모호성에 대해 이해할 수 있습니다. 백터화? 배, 말과 같은 단어들을 벡터에 모든 의미를 담기 어려울 수 있다. 통계적으로 많이 사용되는 뜻은 있겠지만 일단 배의 의미는 10개나 된다. 모델 입장에서 이러한 단어들의 관계 파악은 너무 힘들어지는 것이다. 동음이의어를 통한 데이터 증강도 가능하다! 데이터양이 적었을 경우 이러한 시도들이 많았다. 요즘 데이터가 많아서 데이터를 때려 박아 해소하기도 한다. 단어의 계층과 의미를 한눈에 알 수 있게 해 준다. 계속 업데이트가 필요하다!, 맥락적으로 이해해야 하는 것들을 표현할 수 없다. 좋은 성능을 위해서 레이블이 좋아야 한다.

한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습

한국어 코퍼스 전처리 실습 Introduction Chapter 2. 한국어 데이터 전처리 강의의 한국어 코퍼스 전처리 실습 강의입니다. 일반적인 한국어 코퍼스 처리 과정인 (1) 코퍼스 수집, (2) 정제(Cleaning) 및 정규화(Normalization), (3) 토큰화(Tokenization)을 이해할 수 있도록 간단한 전처리 과정을 실습합니다. 1. 코퍼스 수집 한국어 코퍼스 전처리 실습을 위해, 뉴스 기사를 크롤링 해보겠습니다. 일반적으로 크롤링 코드를 작성하려면 많은 요소들을 고려해야하지만, 본 실습에서는 url 정보만 입력해주면 텍스트를 추출해주는 Newspaper3k 라이브러리를 사용하도록 하겠습니다. !pip install newspaper3k newspaper 라이브러리는 매우 많은..

728x90
728x90