반응형

2024/05 107

CAT-Seg🐱: Cost Aggregation forOpen-Vocabulary Semantic Segmentation 리뷰 및 진행해보기 - 진행 중

https://ku-cvlab.github.io/CAT-Seg/ CAT-Seg🐱: Cost Aggregation for Open-Vocabulary Semantic Segmentation ku-cvlab.github.io  더보기요약오픈 보캐뷸러리 의미 분할(Open-Vocabulary Semantic Segmentation)은 이미지 내 각 픽셀을 텍스트 설명에 기반한 클래스 레이블로 지정하는 문제입니다. 이 논문은 CLIP 모델을 기반으로 이미지와 텍스트 임베딩 간의 코사인 유사도 점수(비용 볼륨)를 집계하는 새로운 방법을 제안합니다. 이 방법은 기존 모델들이 보지 못한 클래스에 대한 처리 문제를 해결하며, CLIP의 인코더를 미세 조정하여 세분화 작업에 적응시킵니다.주요 내용오픈 보캐뷸러리 의미 ..

Learning Correlation Structures for Vision Transformers 리뷰 및 진행 해보기 - 아직 코드 X

https://kimmanjin.github.io/structsa/더보기논문 요약:Learning Correlation Structures for Vision Transformers주요 내용 요약:이 논문은 구조적 자기-어텐션(StructSA)이라는 새로운 어텐션 메커니즘을 소개합니다. 이는 시각적 표현 학습을 위해 쿼리와 키의 상호작용에서 자연스럽게 나타나는 풍부한 상관 구조를 활용합니다. StructSA는 컨볼루션을 통해 공간-시간 구조를 인식하여 어텐션 맵을 생성하고, 이를 사용하여 값 피처의 로컬 컨텍스트를 동적으로 집계합니다. 이를 통해 이미지와 비디오에서 장면 배치, 객체 움직임, 객체 간 관계와 같은 다양한 구조적 패턴을 효과적으로 활용할 수 있습니다. StructSA를 주요 구성 요소로 사..

인공지능 프로젝트 준비하기

https://rail.eecs.berkeley.edu/deeprlcourse/ CS 285GSI Joey Hong joey_hong@berkeley.edu Office Hours: Wednesday 3:30PM-4:30PM (BWW Room 1215)rail.eecs.berkeley.edu이 것도 하나의 과제가 될 수 있어 보이네요ㅣ... Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback더보기최근의 대형 언어 모델(LLM) 발전은 비디오 대형 멀티모달 모델(VLMM)의 개발에 영향을 미쳤습니다. 기존 접근 방식은 지도 학습과 시각적 인코더 통합을 포함하지만, 텍스트와 비디오의 정렬에는 어려움이 있..

생성형 인공지능 입문 11주차 퀴즈

다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.“CLIP은 이미지와 텍스트 쌍으로 훈련된 신경망, _______과 ________의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행함”하나를 선택하세요.1.내용 임베딩, 형식 임베딩2.텍스트 임베딩, 이미지 임베딩3.표현 임베딩, 의미 임베딩4.비주얼 임베딩, 언어 임베딩텍스트와 이미지...?이건 사진 찾지도 못하겠네요...다음 문장의 빈칸에 들어갈 가장 적절한 단어를 고르시오.“CLIP은 이미지와 텍스트 쌍으로 훈련된 신경망, ___과 ____의 컨텍스트를 일치시키기 위해 대비 사전 학습을 수행함”하나를 선택하세요.내용 임베딩, 형식 임베딩텍스트 임베딩, 이미지 임베딩표현 임베딩, 의미 임베딩비주얼 임베딩, 언어 임베딩정답:텍스트 임베딩, 이미..

인공지능/공부 2024.05.18

생성형 인공지능 11주차 3차시 - Diffusion Model

디퓨전 모델은 확산 모델이라고 하지 않았나? 왜 분산 모델이지unet도 생성 및 노이즈 제거에 사용 가능 전방향(채택)도 있지만 후방향(거부)도 있다.노이즈를 추가했을 때 괜찮아진다면 전방향(채택), 별로가 되면 후방향(거부)으로 가는 것이다.괜찮아 지느 것을 으찌 판단하누 여기서 마르코프 프로세스가 나오네요    D ram이 너무 부족하다.

인공지능/공부 2024.05.18

생성형 인공지능 11주차 2차시 - 다양한 방법의 생성 모델

분포를 가져와서 비슷하게 만든다가장 오래된 이미지 생성 모델이다. 생성기와 판별기!생성 이미지가 점점 뚜렷해진다.  PGGAN과 비슷해 보인다.여기는 한꺼번히 해버린다. - 리소스가 엄청나다.  pre trained 모델을 활용한다.생성 모델도 파인튜닝을 통해 만들 수 있다. 다이내믹 스케일링 - 사이즈를 왔다 갔다 할 수 있도록발전 과정을 시각화할 수 있다.

인공지능/공부 2024.05.18

생성형 인공지능 11주차 1차시 - 언어 기반 영상 생성 구조

말, 언어를 이용해서 영상을 생성한다.죄다 짬뽕 되어 있네요가장 대표적인 아키텍쳐가 달리(DALL-E)이다.가장 선도적인 모델이다.트렌스포머 전에는 Colvolution이었다.transformer 모델이 성능이 좋아서 convolution에서 변경되었다.이미지가 상업적으로 쓸만해지면서 생성형 인공지능 파트가 중요해짐  BERT는 인코더 기반으로 긴 Sentence를 사용할 수 있다.다양한 이미지를 사용하고 싶으면 Vit를 진행하면 된다. txt와 사진을 전부 받을 수 있다. 디퓨전은 메모리가 사용이 많이된다. 생성 영상과 실제 영상을 비교해서 손실 함수를 계산한다.이 것도 실제 영상이 어쩔 수 없이 필요하긴 하네요 ㅎㅎ...

인공지능/공부 2024.05.18

모두를 위한 머신러닝 11주차 퀴즈

SVM에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.하나 이상을 선택하세요.두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 음수가 된다두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 양수가 된다SVM에서 가중치 벡터에 대한 데이터의 투영이 클수록 비용 함수 값은 더 커진다SVM에서 가중치 벡터에 대한 데이터 투영이 클수록 비용 함수 값은 더 작아진다내적에서 반대 방향 (90 ~ 270도)는 음수가 된다!, 아까 가중치 벡터는 투영된 데이터와 반비례 하므로 투영된 데이터가 커지면 가중치 벡터는 작아지고, 비용함수는 작아진다!SVM에 관한 다음 설명 중에서 올바른 것을 모두 고르시오.하나 이상을 선택하세요.두 벡터 사이의 각도가 90°−270° 범위에 있으면 내적은 음수가 된..

인공지능/공부 2024.05.18
728x90
728x90