반응형

인공지능/논문 리뷰 or 진행 135

Ever-Evolving Memory by Blending and Refining the Past - 리뷰 및 진행해보기 - 아직 코드 X

https://arxiv.org/abs/2403.04787 Ever-Evolving Memory by Blending and Refining the PastFor a human-like chatbot, constructing a long-term memory is crucial. However, current large language models often lack this capability, leading to instances of missing important user information or redundantly asking for the same information, thereby dimiarxiv.org https://linnk.ai/insight/%EC%9D%B8%EA%B3%B5%E..

Tuning Large Multimodal Models for Videos using Reinforcement Learningfrom AI Feedback 리뷰 및 진행해보기 - 코드 X

https://arxiv.org/abs/2402.03746 Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI FeedbackRecent advancements in large language models have influenced the development of video large multimodal models (VLMMs). The previous approaches for VLMMs involved Supervised Fine-Tuning (SFT) with instruction-tuned datasets, integrating LLM with visual encoarxiv.orghttps://githu..

CAT-Seg🐱: Cost Aggregation forOpen-Vocabulary Semantic Segmentation 리뷰 및 진행해보기 - 진행 중

https://ku-cvlab.github.io/CAT-Seg/ CAT-Seg🐱: Cost Aggregation for Open-Vocabulary Semantic Segmentation ku-cvlab.github.io  더보기요약오픈 보캐뷸러리 의미 분할(Open-Vocabulary Semantic Segmentation)은 이미지 내 각 픽셀을 텍스트 설명에 기반한 클래스 레이블로 지정하는 문제입니다. 이 논문은 CLIP 모델을 기반으로 이미지와 텍스트 임베딩 간의 코사인 유사도 점수(비용 볼륨)를 집계하는 새로운 방법을 제안합니다. 이 방법은 기존 모델들이 보지 못한 클래스에 대한 처리 문제를 해결하며, CLIP의 인코더를 미세 조정하여 세분화 작업에 적응시킵니다.주요 내용오픈 보캐뷸러리 의미 ..

Learning Correlation Structures for Vision Transformers 리뷰 및 진행 해보기 - 아직 코드 X

https://kimmanjin.github.io/structsa/더보기논문 요약:Learning Correlation Structures for Vision Transformers주요 내용 요약:이 논문은 구조적 자기-어텐션(StructSA)이라는 새로운 어텐션 메커니즘을 소개합니다. 이는 시각적 표현 학습을 위해 쿼리와 키의 상호작용에서 자연스럽게 나타나는 풍부한 상관 구조를 활용합니다. StructSA는 컨볼루션을 통해 공간-시간 구조를 인식하여 어텐션 맵을 생성하고, 이를 사용하여 값 피처의 로컬 컨텍스트를 동적으로 집계합니다. 이를 통해 이미지와 비디오에서 장면 배치, 객체 움직임, 객체 간 관계와 같은 다양한 구조적 패턴을 효과적으로 활용할 수 있습니다. StructSA를 주요 구성 요소로 사..

인공지능 프로젝트 준비하기

https://rail.eecs.berkeley.edu/deeprlcourse/ CS 285GSI Joey Hong joey_hong@berkeley.edu Office Hours: Wednesday 3:30PM-4:30PM (BWW Room 1215)rail.eecs.berkeley.edu이 것도 하나의 과제가 될 수 있어 보이네요ㅣ... Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback더보기최근의 대형 언어 모델(LLM) 발전은 비디오 대형 멀티모달 모델(VLMM)의 개발에 영향을 미쳤습니다. 기존 접근 방식은 지도 학습과 시각적 인코더 통합을 포함하지만, 텍스트와 비디오의 정렬에는 어려움이 있..

728x90
728x90