반응형

인공지능 649

인공지능과 빅데이터 9주차 3차시 - 빅데이터와 데이터 마이닝

빅 데이터 개요와 데이터 마이닝 개요!LLM, 자율주행, 생성형 이미지등 다양한 성능을 발현하고 있다.이러한 빅데이터를 통해 새로운 성장 동력을 찾기도 한다.비정형 데이터는 정형 데이터로 바뀔 수 있다.특정 분야에선 인간을 뛰어 넘기도 했다.삶에 도움이 되는 어플리케이션을 만들 수 있고 그 기술이 딥러닝, 머신러닝 이다.사생활 침해와 보안의 측면에 문제가 있기도 하다.데이터 갱신 속도, 활용 속도가 빠르다.빅데이터 = 정형 데이터 + 비정형 데이터 빅데이터 전문가 == 이 6가지를 잘 활용한다. 독감의 추세가 어떻게 될지 예측 가능하다.

인공지능/공부 2024.04.29

인공지능과 빅데이터 9주차 2차시 - 데이터 수집, 관리, 분석

데이터 사이언즈 작업의 흐름, 데이터 수집, 관리, 분석분야마다 다를 수 있지만 이 단계를 일반적으로 따른다.가장 중요성이 크다!원하는 목표를 달성하는 문제 정의를 잘 못하면 이상한 결과를 얻을 수 있다.문제 정의의 중요성을 보여준다.인터뷰, 데이터 베이스 활용 등 다양한 수집 방법이 있다.질문을 통해 여러 수집 방법을 고안할 수 있다.저장된 데이터를 활용한다.인공지능 뿐만이 아니라 전통적인 방식이 효율적일 수 있다.시각화 - 결과를 보기 쉽게 그래프나 표로 눈으로 보여주는 것sns나 seaborn이 있었던 것 같네요판다스를 활용하기도 한다.1단계에서 정의했던 문제에 대해 달성했는지 확인하는 단계이다. 데이터 분석 단계를 좀 더 확인해보자!분류와 클러스터링이 지속적으로 사용된다.라벨이 충분히 잘 되어 있..

인공지능/공부 2024.04.29

인공지능과 빅데이터 9주차 1차시 - 데이터 사이언스 개요, 활용 분야

대량의 데이터를 다루는 기술에 대한 수요가 증가하였다!인공지능 전에는 엄청난 시간이 소요되었다.빅데이터 기술 발전과 함께 분산컴퓨팅 고도화, 일반화-> 데이터 사이언스분산컴퓨팅, 기계학습, 통계학 등 다양한 능력이 필요하다.데이터는 그대로 데이터 베이스에 저장된다! -> 데이터를 유의미하게 사용하자데이터로부터 정보를 얻고, 의미있는 패턴을 찾아낸다iot와 ioe를 통해 데이터도 엄청나게 쌓인다.빅데이터가 수집되는 분야에서 데이터 사이언스는 필수이다.비지니스 활용 측면이 데이터 사이언스의 이점(기능) 중 하나이다.개인정보에 대한 동의가 있다면 데이터 활용을 통해 서비스를 개선할 수 있다.클러스터링 - 레이블 되지 않은 수 많은 데이터를 유사한 특징끼리 클러스터링을 해준다.비슷한 특징 - 컴퓨터가 알아서 해..

인공지능/공부 2024.04.29

AI 경진 대회 준비 - 강화 학습

친구랑 함께 matlab AI 대회에 참여하기로 했는데 수상작을 확인해보니 전부 데이터 확보가 중요해보이더라고여그래서 저희는 자율주행 동아리도 진행하는 만큼 GAZEBO 시뮬레이션과 차량 플랫폼을 활용해서 강화학습을 진행하도록 결정했습니다.주제가 가장 문제인데...제가 생각해본건 ABS, 포트홀과 같은 도로 미세 균열 피하기, 데이터 확보만 가능하다면 급발진도 넣고 싶은데..... 시뮬레이션으로 어떻게 구현해야 할지도 모르겠네요일단 이 정도고 구현이 좀 완성되면 차차 작성하겠습니다.https://kr.mathworks.com/academia/student-challenge/2024/ai-challenge.html MATLAB 대학생 AI 경진대회 2024인공지능(AI) 기술을 활용한 아이디어를 MATLA..

자연어 처리 python 양방향(Bidirectional) LSTM 진행하기

with open('Korean_movie_reviews_2016.txt/Korean_movie_reviews_2016.txt', encoding='utf-8') as f: docs = [doc.strip().split('\t') for doc in f] docs = [(doc[0], int(doc[1])) for doc in docs if len(doc) == 2] texts, labels = zip(*docs) words_list = [doc.strip().split() for doc in texts]print(words_list[:2])[['부산', '행', '때문', '너무', '기대하고', '봤'], ['한국', '좀비', '영화', '어색하지', '않게', '만들어졌', ..

자연어 처리 python 실습 - 한to영 기계 번역 모델 학습 및 평가

IntroductionChapter 8. 기계 번역 (Machine Translation) Task 강의의 한국어 기계 번역 실습 (2) 기계 번역 모델 학습 및 평가 강의입니다.이번 실습에서는 이전 실습 강의에서 진행했던 한국어-영어 번역 모델을 학습하기 위한 한국어-영어 병렬 코퍼스 수집 및 전처리 과정에 이어서, Seq2Seq Transformer를 기반으로하는 한국어-영어 번역 모델을 직접 학습하고 평가해봅니다. 1. 데이터셋 수집오늘 학습에서는 AI Hub에서 제공하는 한국어-영어 번역(병렬) 말뭉치의 샘플 데이터를 사용합니다.(본 데이터 사용에 제한은 없으나, 간단한 신청 절차를 거친 후 사용해야하므로, 본 데이터셋을 모두 학습에 활용해보고 싶은 분은 데이터를 신청하고 사용하실 수 있습니다!)..

자연어 처리 python 실습 - 한국어 기계 번역 데이터 수집 및 전처리

IntroductionChapter 8. 기계 번역 (Machine Translation) Task 강의의 한국어 기계 번역 실습 (1) 데이터 수집 및 전처리 강의입니다.이번 실습에서는 (1) 영어-한국어 번역 모델을 학습하기 위한 영어-한글 병렬 코퍼스를 수집하고, (2) 수집한 병렬 코퍼스를 전처리하는 과정을 진행해보겠습니다.이번 강의에서는 번역 모델의 입/출력을 만들기 위해 자주 사용되는 여러가지 자연어 전처리 기술을 소개하며, 특히, 원본 언어의 문장(Source)을 입력으로 받고, 타겟 언어의 번역 결과(Target)을 출력하는 번역 모델의 특징에 맞춰 실습을 진행합니다.1. 문장 전처리기 만들기영어-한국어 병렬 코퍼스는 Source, Target 각각 하나의 문장으로 이루어져 있습니다.영어-..

자연어 처리 기계 번역 - 딥러닝 기반 기계 번역 연구 동향, 발전 방향

목표 - 딥러닝 기반 기계 번역 작업의 연구 동향 및 발전 방향1. 저자원 언어의 번역 수준 개선2. 데이터 증강 (저자원 언어, 더 많은 데이터, 부족한 데이터 증강), 새로운 단어에 대한 대응3. 임의의 언어에 대한 대응, 비슷한 특징을 가지는 언어를 같이 학습하면 이점을 가진다.4. 딥러닝 기반 기계번역의 한계점 분석하고, 해결하기! ACL - 자연어 처리 학회내가 실제 사용할 때 잘못되었다면 바로잡아 줄 수 업다. -> 오차가 전파되면 완전히 잘 못 번역될 수 있다.노출 편향 - 학습환경에 편향이 있다.학습 환경에서도 실제 환경과 유사하게 주어줘보기j번째 만들 때 j-1번 째 출력을 기반으로 만든다.  -> 잘 못된 출력을 입력하면 오차가 커질 것이다.정답 단어를 쓴다 - teacher forci..

자연어 처리 기계 번역 - 딥러닝 기반 기계 번역

목표 - 딥러닝 기반 기계 번역의 목적과 작동 원리 이해하기2,3년 안에 급속도로 발전되어 Chat GPT도 등장하였다.발전 과정을 보면서 핵심, 한계점 등을 봐보자!Seq2seq -> attention -> self-attention(transformer)이게 Seq2Seq아닌가...?통계 기반을 개선하기 위해서 인코더 디코더 구조가 나왔다.앞선 논문은 그저 인코딩이었다면 여기선 word embedding이 진행된다.문장을 입력과 출력으로 받게 되어 기계 번역에 유용하게 사용되었다.통계 기반을 압도적으로 이긴 것은 attention 메커니즘 도입 이후이다.입력문장의 정보를 출력할 때 마다 사용되는 구조이다.양방향 - ELMo나 BERT처럼 문맥을 양방향으로 확인했따.생성할 때 활용할 수 있는 정보의 양..

728x90
728x90