반응형

인공지능 665

NLP Python - BERT for Question Answering, Tokenizer, Evaluate(f1 score)

일단 BERT의 구조부터 한번 상기시키고 가겠습니다.더보기BERT(Bidirectional Encoder Representations from Transformers)는 Google AI에서 개발한 자연어 처리 모델로, 트랜스포머(Transformer) 아키텍처를 기반으로 합니다. BERT는 문맥을 양방향으로 이해할 수 있는 사전 훈련된 모델로, 다양한 NLP 작업에서 뛰어난 성능을 보입니다. BERT의 기본 구조에 대해 자세히 설명하겠습니다.BERT의 기본 구조BERT는 트랜스포머 인코더(Transformer Encoder)만으로 구성된 모델입니다. 트랜스포머 아키텍처는 인코더-디코더 구조로 이루어져 있지만, BERT는 인코더 부분만을 사용합니다. 주요 구성 요소는 다음과 같습니다:입력 임베딩(Inpu..

생성형 인공지능 입문 - 12주차 퀴즈

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.“FID (Fréchet Inception Distance)는 생성된 이미지와 실제 이미지의 _________를 측정하는 지표로, 낮을수록 더 좋은 품질을 의미함”하나를 선택하세요.1.특징 분포의 차이2.해상도 차이3.색상 일치도4.질감차이오 첫번째 문제는 11주차 내용이네요...?“FID (Fréchet Inception Distance)는 생성된 이미지와 실제 이미지의 _____를 측정하는 지표로, 낮을수록 더 좋은 품질을 의미함”이 문장에서 FID가 무엇을 측정하는지 설명하는 데 가장 적절한 단어를 고르는 것이 목표입니다.선택지 분석특징 분포의 차이: FID는 생성된 이미지와 실제 이미지의 특징 분포의 차이를 측정합니다. 이는 이미지의 통계적 ..

인공지능/공부 2024.05.20

생성형 인공지능 12주차 - 분산 기반 영상 생성

1차시 - 영상 생성 동작 및 데모잠복 - latentVAE + U-net(노이즈 제거에 좋다) + BERTQKV가 트랜스포머 기반이라는 것을 포현해준다. - 트랜스포머 기반으로 한 u-netConditioning에 언어 모델이 들어간다. BERT,GPT 등등...모델 로드하는 과정이다.프롬포트를 바꾸면 계속 다른 사진이 나온다.리소스 문제가 있긴 하지만 그래도 퀄리티가 매우 좋아졌다. 2차시 - 영상 생성 동작 2 DALL E 제로샷 러닝, 생성 - 한 번도 보여주지 않았다.원샷 - 한 번은 샘플을 보여준다.학습에는 엄청난 양의 데이터를 사용했다.한 번도 본적 없는 텍스트에 대해서도 이미지를 생성한다.파라미터가 너무 많다.256 * 256 을 32*32로 여러개 이미지 토큰(패치)으로 나눈다. coco..

인공지능/공부 2024.05.20

모두를 위한 머신러닝 과제2 - k means 진행, 계산

[과제 내용]2차원 특징 공간 상에서 다음과 같이 6개의 데이터가 주어졌을 때,(–1, 1), (0, 0.5), (1, 1), (–1, –0.5), (0, –1), (1, –0.5)이 데이터들을 K-means 클러스터링 알고리즘을 사용하여 2개의 클러스터로 군집화하고자 한다.랜덤하게 초기화한 클러스터 1과 2의 중심이 각각 (–1 ,1)과 (1, –0.5) 라고 하였을 때, 다음 질문에 답하시오:       (1)   데이터들과 클러스터 중심의 초기값들을 2차원 특징 공간 상에 함께 표시하고, 각 데이터 포인트들이 어느 클러스터에 속하는지 판단하여 다음 표를 완성하시오:일단 컴퓨터 계산손 계산도 한번 해보겠습니다...[0 2.51.118 1.4142 1.51.5 22.236 1.1182.5  0]인거 보..

인공지능/공부 2024.05.20

모두를 위한 머신러닝 12주차 퀴즈

아래 설명의 빈칸에 들어갈 가장 적절한 단어를 고르시오.“________은 라벨이 지정되지 않은 데이터를 이용하여 학습하는 알고리즘이며,데이터의 구조적 특성을 찾는 ________은 그 중 한 예이다. ”하나를 선택하세요.지도 학습, 구조예측비지도 학습, 구조예측지도 학습, 클러스터링비지도 학습, 클러스터링라벨이 지정되지 않았다 == 비지도 학습, 데이터 구조의 특성을 찾는다 == 클러스터링문장에서 빈칸을 채울 가장 적절한 단어를 고르는 문제입니다. 문장은 다음과 같습니다:“____은 라벨이 지정되지 않은 데이터를 이용하여 학습하는 알고리즘이며, 데이터의 구조적 특성을 찾는 ____은 그 중 한 예이다. ”이 문장을 분석해 보면, 첫 번째 빈칸은 라벨이 없는 데이터를 이용하는 학습 방법을 설명하고 있습니..

인공지능/공부 2024.05.20

모두를 위한 머신러닝 12주차 클러스터링

1주차 - 비지도 학습고객들의 방문 로그 데이터를 이용하여 웹 사이트 이동 동선을 표시하는 프로세스 맵을 만들 수 있다.이 프로세스 맵을 통해서 유입 경로와 유출 결로를 만들어 판매 전략을 수립할 수 있다.라벨링이 되어 있지 않은 수많은 데이터로부터 데이터의 패턴 등 유용한 정보를 추출하는 것을 비지도 학습이라고 한다. 여태까지는 입력과 정답이 대응되어있는 데이터이다.이 분류 경계선을 잘 찾는 것이 일이다.구조적인 특징을 잘 찾는 것이 일이다. 라벨이 존재하지 않는다.유사한 데이터를 그룹핑하는 클러스터링이 목적이다. 소비자들의 그룹을 소비 패턴에 따라 몇 개의 그룹으로 clustering 할 수 있다.소비자나 제품을 기준으로 판매 전략을 만들 수 있다.클러스터링을 통해 패턴을 찾아낼 수 있다! 의료 진단..

인공지능/공부 2024.05.20

CAT-Seg🐱: Cost Aggregation forOpen-Vocabulary Semantic Segmentation 리뷰 및 진행해보기 - 진행 중

https://ku-cvlab.github.io/CAT-Seg/ CAT-Seg🐱: Cost Aggregation for Open-Vocabulary Semantic Segmentation ku-cvlab.github.io  더보기요약오픈 보캐뷸러리 의미 분할(Open-Vocabulary Semantic Segmentation)은 이미지 내 각 픽셀을 텍스트 설명에 기반한 클래스 레이블로 지정하는 문제입니다. 이 논문은 CLIP 모델을 기반으로 이미지와 텍스트 임베딩 간의 코사인 유사도 점수(비용 볼륨)를 집계하는 새로운 방법을 제안합니다. 이 방법은 기존 모델들이 보지 못한 클래스에 대한 처리 문제를 해결하며, CLIP의 인코더를 미세 조정하여 세분화 작업에 적응시킵니다.주요 내용오픈 보캐뷸러리 의미 ..

Learning Correlation Structures for Vision Transformers 리뷰 및 진행 해보기 - 아직 코드 X

https://kimmanjin.github.io/structsa/더보기논문 요약:Learning Correlation Structures for Vision Transformers주요 내용 요약:이 논문은 구조적 자기-어텐션(StructSA)이라는 새로운 어텐션 메커니즘을 소개합니다. 이는 시각적 표현 학습을 위해 쿼리와 키의 상호작용에서 자연스럽게 나타나는 풍부한 상관 구조를 활용합니다. StructSA는 컨볼루션을 통해 공간-시간 구조를 인식하여 어텐션 맵을 생성하고, 이를 사용하여 값 피처의 로컬 컨텍스트를 동적으로 집계합니다. 이를 통해 이미지와 비디오에서 장면 배치, 객체 움직임, 객체 간 관계와 같은 다양한 구조적 패턴을 효과적으로 활용할 수 있습니다. StructSA를 주요 구성 요소로 사..

인공지능 프로젝트 준비하기

https://rail.eecs.berkeley.edu/deeprlcourse/ CS 285GSI Joey Hong joey_hong@berkeley.edu Office Hours: Wednesday 3:30PM-4:30PM (BWW Room 1215)rail.eecs.berkeley.edu이 것도 하나의 과제가 될 수 있어 보이네요ㅣ... Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback더보기최근의 대형 언어 모델(LLM) 발전은 비디오 대형 멀티모달 모델(VLMM)의 개발에 영향을 미쳤습니다. 기존 접근 방식은 지도 학습과 시각적 인코더 통합을 포함하지만, 텍스트와 비디오의 정렬에는 어려움이 있..

생성형 인공지능 입문 11주차 퀴즈

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.“CLIP은 이미지와 텍스트 쌍으로 훈련된 신경망, _______과 ________의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행함”하나를 선택하세요.1.내용 임베딩, 형식 임베딩2.텍스트 임베딩, 이미지 임베딩3.표현 임베딩, 의미 임베딩4.비주얼 임베딩, 언어 임베딩텍스트와 이미지...?이건 사진 찾지도 못하겠네요...다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.“CLIP은 이미지와 텍스트 쌍으로 훈련된 신경망, ___과 ____의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행함”하나를 선택하세요.내용 임베딩, 형식 임베딩텍스트 임베딩, 이미지 임베딩표현 임베딩, 의미 임베딩비주얼 임베딩, 언어 임베딩정답:텍스트 임베딩, 이미..

인공지능/공부 2024.05.18
728x90
728x90