반응형

소프트웨어 927

인공지능과 빅데이터 1주차 1차시 - 교과목 소개

인공지능 - 빅 데이터를 기반으로 유의미한 결과를 도출하는 기술 사물인터넷 = IoT = Internet of Things iot = 인터넷에 연결되어 데이터를 공유할 수 있는 사물 M2M - 기기간 상호 연결이 되어있지만 인터넷에 정보 공유 X=> 폐쇄성 == 기술의 보급이 느리다. IOT - 기본적으로 인터넷에 연결하여 통신할 수 있다. => 연결성 == 통신프로토콜을 따로 구현할 필요가 없다. IOT 네트워크 : 인터넷을 통해 액세스하는 물리적 개체의 네트워크 공항, 가게, 홈 네트워크, 공장 등 IOT 네트워크가 없는 분야가 없다. 핸드폰 사용자가 많은 것을 활용한 MCS가 있다. IOE = internet of everything 만물 인터넷 사물과 사람, 데이터, 프로세스 등 연결가능한 모든 ..

인공지능/공부 2024.03.06

컴퓨터는 자연어를 어떻게 이해하는가? - 자연어 특성

목표 - 자연어에서 단어의 의미와 단어 간 유사성과 모호성에 대해 이해할 수 있습니다. 백터화? 배, 말과 같은 단어들을 벡터에 모든 의미를 담기 어려울 수 있다. 통계적으로 많이 사용되는 뜻은 있겠지만 일단 배의 의미는 10개나 된다. 모델 입장에서 이러한 단어들의 관계 파악은 너무 힘들어지는 것이다. 동음이의어를 통한 데이터 증강도 가능하다! 데이터양이 적었을 경우 이러한 시도들이 많았다. 요즘 데이터가 많아서 데이터를 때려 박아 해소하기도 한다. 단어의 계층과 의미를 한눈에 알 수 있게 해 준다. 계속 업데이트가 필요하다!, 맥락적으로 이해해야 하는 것들을 표현할 수 없다. 좋은 성능을 위해서 레이블이 좋아야 한다.

한국어 데이터 전처리 - 한국어 코퍼스 전처리 Python 실습

한국어 코퍼스 전처리 실습 Introduction Chapter 2. 한국어 데이터 전처리 강의의 한국어 코퍼스 전처리 실습 강의입니다. 일반적인 한국어 코퍼스 처리 과정인 (1) 코퍼스 수집, (2) 정제(Cleaning) 및 정규화(Normalization), (3) 토큰화(Tokenization)을 이해할 수 있도록 간단한 전처리 과정을 실습합니다. 1. 코퍼스 수집 한국어 코퍼스 전처리 실습을 위해, 뉴스 기사를 크롤링 해보겠습니다. 일반적으로 크롤링 코드를 작성하려면 많은 요소들을 고려해야하지만, 본 실습에서는 url 정보만 입력해주면 텍스트를 추출해주는 Newspaper3k 라이브러리를 사용하도록 하겠습니다. !pip install newspaper3k newspaper 라이브러리는 매우 많은..

한국어 데이터 전처리 - 한국어 형태소 분석 (KoNLPy, Mecab활용)

목표 - 다양한 한국어 형태소 분석기를 포함하는 KoNLPy를 활용하여 한국어 형태소 분석 과정을 이해할 수 있다. 일본어도 한국어와 같이 교착어의 특성을 가진다! 어떤 특성이 가장 잘 맞을지 고르면 된다. 작업에 맞는 품사 분류를 고르면 된다. 정제과정 속에서의 부작용, 규칙 기반을 통한 분리에서 오류가 나기 때문이다.

자율주행 자동차 erp-42 gazebo simulation 상 automatic parking 구현, matlab 코드 첨부

clear; close all; clc;rosshutdown;rosinit('http://localhost:11311')tftree = rostf;pause(3);% Parameter//============================================================roi = [0, 20, -10, 10, -2, 4];% init//==================================================================params = lidarParameters('OS1Gen1-64',512);velSub = rossubscriber('/odom_skid', "DataFormat", "struct");gpsSub = rossubscriber('/o..

한국어 데이터 전처리 - 서브워드 토큰화 (BPE 활용)

목표 - 자연어처리에서 많이 사용되는 서브워드 토큰화 방식 및 BPE 알고리즘에 대해 알 수 있다. 문장 토큰화 - 다양성이 너무 늘어난다. 문자 토큰화 - 하나의 짧은 문장을 만드는데도 추론이 엄청나게 많아지게 되고, 토큰끼리의 관계가 없다. 하나의 단어가 작은 의미의 단어 여러개로 분리하기! 신조어에 대응 가능! 예외 상황이 너무 많을 수 있다! 빈도수가 높다 - lo, we,er 등이 몇 번씩 나오냐, 빈도수 높은 것 통합하기 이렇게 되면 이 과정도 엄청 오래걸리겠는데....? 그 다음엔 low겠네 사전이 점점 늘어나는데....? 처음에 분류하는 시간이 쪼금 걸려보이는데.... 적절한 알고리즘 횟수 정하는 것이 중요! 이게 좀 더 합리적인 것 같기도 하고...?

한국어 데이터 전처리 - 토큰화 Tokenization

목표 - 자연어 코퍼스를 최소 의미 단위인 토큰 단위로 나누는 토큰화 작업을 이해할 수 있다. 띄어쓰기 단위로 간단하게 토큰화할 수 있다. 내가 문장 하나를 기계가 이해할 수 있는 수치화 하는 것 문장 하나를 주는 것 보다 단어 단위로 주면서 순서까지 주면 이해하기가 더 쉽다. 텍스트를 단어 수준으로 이해할 수 있게 해 준다. 식당과 메뉴를 연관 지어 이해할 수도 있다. 단어 단위로 나누지 않는다면 '압구정에 어떤 식당이 있나요?'를 이해하지 못할 것이다. 글자 단위로 설정하면 모델의 이해력을 오히려 제한할 수 있다. 글자에는 의미가 없기 때문! 적당한 토큰 단위가 필요하다. 4가지가 있다. 문장 분류! 교착어 - 언어와 접사를 통해 언어가 이루어짐 신조어가 생긴다! - 사전에 없으면 처리를 못한다, 사..

한국어 데이터 전처리 - 정제(Cleaning) 및 정규화(Normalization)

목표 - 수집한 자연어 코퍼스를 정제하는 과정 및 정규화 과정에 대해 이해할 수 있다. 정규화 - 대문자 -> 소문자, 다양한 이모지 통일 등 노이즈 - 판단 필요하다! -> 완벽하게 없애는 것은 힘들기 때문에 합의점이 필요하다. 분포가 너무 적은 것들은 제거도 한다. 쓰임이 없는 단어, 비효율적인 단어들 모델의 응답시간도 단축 가능하다. 정보량이 많지 않다. -> 무언가를 분류하는데 도움이 되지 않는다. 없다면 pip nltk로 설치도 필요하다. 대명사, 관사들이 들어있다. 내가 필요하다고 생각하다면 리스트에서 제거해주면 된다. 단어가 많이 줄어든 것을 볼 수 있다. 조사는 붙어있는데 어떻게 제거할까? 특수 문자중에서도 웃음과 같은 것은 긍정으로 볼 수 있지 않나...? 빈도에 따라 중요성도 생각해 볼..

한국어 데이터 전처리 - 자연어 코퍼스 수집

강의 목표 : 웹 상에 공개된 한국어 자연어 코퍼스들을 소개하고 활용하는 방법들을 이해할 수 있다. 내가 필요한 데이터의 종류를 잘 찾아야 한다. 어느 정도의 코퍼스를 수집해야 할까? 무한히 많은 코퍼스가 항상 좋은 것도 아니다. 번역 모델 - 모델 구조에 2만개의 학습 데이터를 넣었을 때 잘 된다는 논문을 보고 2만개라고 정할 수 있다. 레이블 - 데이터의 패턴 모델이 커지면 커질수록 데이터 필요 커짐 쉬운 작업에 큰 모델은 필요 없다! 데이터에 비해 모델이 너무 크다! 모델이 크려면 학습 데이터도 많아야 한다. 23년 현재의 어뷰징 컨텐츠를 거르고 싶은데 20년도 어뷰징 관련 데이터라면 지금 어뷰징은 못 잡을 확률이 크다. 데이터 분석 과정이 필수다. 중립적인 의견은 표출하지 않아 편향적인 데이터가 ..

자연어 처리 살펴보기 - Google colab 환경에서 Huggingface 기초 실습

Huggingface Tutorial Introduction Chapter 1. 자연어처리 살펴보기 강의의 google colab 환경에서 Huggingface 기초 실습 강의입니다. 자연어처리 실습을 위한 google colab 환경을 소개하고, 자연어처리 분야의 주요 모듈인 Huggingface의 사용법을 익히기 위해, Tokenizer 및 모델 실습을 진행합니다. Hugging Face, Inc.는 기계 학습을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 미국 회사입니다. 자연어 처리 애플리케이션용으로 구축된 Transformers 라이브러리와 사용자가 기계 학습 모델 및 데이터 세트를 공유할 수 있는 플랫폼으로 가장 유명합니다. 우리는 이 라이브러리를 통해 오늘날 사용 가능한 대부분의 크..

728x90
728x90