인공지능/논문 리뷰 or 진행

인공지능 프로젝트 준비하기

이게될까 2024. 5. 19. 23:50
728x90
728x90

https://rail.eecs.berkeley.edu/deeprlcourse/

 

CS 285

GSI Joey Hong joey_hong@berkeley.edu Office Hours: Wednesday 3:30PM-4:30PM (BWW Room 1215)

rail.eecs.berkeley.edu

이 것도 하나의 과제가 될 수 있어 보이네요ㅣ...

 

Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback

더보기

최근의 대형 언어 모델(LLM) 발전은 비디오 대형 멀티모달 모델(VLMM)의 개발에 영향을 미쳤습니다. 기존 접근 방식은 지도 학습과 시각적 인코더 통합을 포함하지만, 텍스트와 비디오의 정렬에는 어려움이 있었습니다. 이를 해결하기 위해 AI 피드백을 통한 강화 학습(RLAIF)을 사용하여 비디오와 텍스트의 정렬을 개선하는 새로운 방법을 제안했습니다. 이 방법은 비디오 내용을 더 잘 이해하기 위해 세부적인 비디오 설명을 문맥으로 통합하여 성능을 향상시킵니다. 실험 결과, VLM-RLAIF가 기존 모델을 능가하는 성능을 보였습니다.

https://github.com/yonseivnl/vlm-rlaif

 

GitHub - yonseivnl/vlm-rlaif

Contribute to yonseivnl/vlm-rlaif development by creating an account on GitHub.

github.com

아직 코드 공개가....

 

Ever-Evolving Memory by Blending and Refining the Past 

더보기

CREEM은 대화형 AI에서 장기 메모리 구축을 개선하기 위해 고안된 새로운 메모리 시스템입니다. 현재의 대형 언어 모델(LLM)은 장기 메모리가 부족하여 중요한 사용자 정보를 잊거나 중복된 질문을 하는 경우가 많습니다. CREEM은 과거와 현재의 정보를 혼합하고 정제하여 메모리를 형성하며, 응답 생성과 메모리 구축을 통합하여 일관된 대화를 제공합니다. 이를 통해 다중 세션 개인화된 대화에서 메모리와 응답 품질을 향상시킵니다.

현재 문맥에 맞는 질문을 생성하여 과거의 데이터에서 검색 -> 검색 매모리를 바탕으로 새로운 메모리 생성, 불필요한 메모리 정제 (혼합과 정제) -> 새로운 메모리를 반영하여 일관성 있는 응답을 생성

코드가 없다.,..

 

Can Large Language Models be Good Emotional Supporter? Mitigating Preference Bias on Emotional Support Conversation

더보기

대형 언어 모델(LLMs)이 감정 지원 대화(ESC)에서 효과적인 지원자가 될 수 있는지를 연구한 논문입니다. ESC는 감정적 고통을 완화하기 위한 대화로, LLM이 적절한 전략을 선택하지 못하고 특정 전략에 치우치는 경향을 보입니다. 이 연구는 LLM의 전략 선호가 ESC에 미치는 영향을 분석하고, 외부 도움을 통한 선호 편향 완화 방법을 제안합니다. 결과적으로, 선호 편향이 낮은 모델이 더 효과적인 감정 지원을 제공하며, LLM만으로는 충분한 감정 지원자가 될 수 없음을 강조합니다.

 

논문 내용 요약

1. 연구 배경과 문제점

감정 지원 대화(ESC)는 복잡하고 직관적이지 않으며, 대형 언어 모델(LLM)은 이러한 대화에서 적절한 감정 지원을 제공하는 데 어려움을 겪습니다.
ESC는 일반적으로 탐색(Exploration), 위로(Comforting), 행동(Action)의 세 단계를 거치며, 각 단계에서 다양한 지원 전략을 사용합니다.

2. 연구 질문

RQ1: LLM의 전략 선호가 감정 지원에 미치는 영향은 무엇인가?
RQ2: LLM의 선호 편향을 완화하기 위한 방법은 무엇인가?
RQ3: 선호 편향을 개선하면 더 나은 감정 지원자가 될 수 있는가?

3. 연구 방법

모델 평가: 다양한 LLM을 대상으로 전략 선택 능력과 선호 편향을 평가했습니다.
편향 완화 방법: 자체적인 방법(Self-contact)과 외부 도움(External-contact)을 통한 편향 완화 방법을 테스트했습니다.
Self-contact: 모델 자체의 능력으로 편향 완화를 시도.
External-contact: 외부 지식(예: COMET, 전략 플래너)의 도움을 받아 편향 완화를 시도.

4. 실험과 결과

선호 편향의 영향: 높은 편향을 가진 모델은 특정 단계에서 성능이 저하되며, 이는 감정 지원의 일관성을 저해합니다.
편향 완화 방법의 효과: 외부 도움을 받은 모델은 편향이 감소하고, 전반적인 전략 예측 능력이 향상되었습니다.
특히, 전략 플래너의 도움을 받은 모델이 가장 높은 성능을 보였습니다.
감정 지원 효과 평가: 선호 편향이 낮은 모델이 더 효과적인 감정 지원을 제공하며, 사용자 만족도(Sat.)가 높았습니다.

5. 결론

LLM의 전략 선호 편향은 감정 지원에 큰 영향을 미치며, 외부 도움을 통해 편향을 완화할 수 있습니다.
이는 전반적인 감정 지원의 품질을 향상시키고, 저품질 응답의 비율을 줄이는 데 중요합니다.

음 이건 뭔가 제가 만져볼 것은 아닌거 같긴 한데,,,

https://github.com/Sahandfer/EMPaper?tab=readme-ov-file

 

GitHub - Sahandfer/EMPaper: This is a repository for sharing papers in the field of empathetic conversational AI. The related so

This is a repository for sharing papers in the field of empathetic conversational AI. The related source code for each paper is linked if available. - Sahandfer/EMPaper

github.com

코드랑 데이터셋 

 

COFFEE: Boost Your Code LLMs by Fixing Bugs with Feedback

더보기

이 논문은 COFFEE와 COFFEEPOTS라는 두 가지 주요 기여를 통해 코드 수정 작업에서 오픈 소스 대형 언어 모델(LLMs)을 개선하는 방법을 다룹니다. COFFEE는 코드 수정에 피드백을 제공하기 위한 데이터셋이며, COFFEEPOTS는 피드백을 최적화하여 코드 수정 성능을 향상시키는 프레임워크입니다. 이 연구는 오픈 소스 코드 LLM이 닫힌 소스 모델(예: ChatGPT, GPT-4)과 비교하여 효과적으로 피드백을 생성하고 이를 통해 코드 수정 작업을 수행할 수 있도록 합니다.    

 

https://github.com/Lune-Blue/COFFEE

 

GitHub - Lune-Blue/COFFEE

Contribute to Lune-Blue/COFFEE development by creating an account on GitHub.

github.com

이것도 아직 공개는 아닌...

 

Learning Correlation Structures for Vision Transformers

더보기

이 논문에서는 키-쿼리 상호작용의 자연스러운 상관 패턴을 활용하는 새로운 주의 메커니즘인 구조적 자기 주의 메커니즘(StructSA)을 소개합니다. StructSA는 키-쿼리 상관 관계의 시공간 구조를 인식하여 주의 맵을 생성하고, 이를 사용해 가치 특징의 지역 컨텍스트를 동적으로 집계합니다. 이를 통해 이미지와 비디오의 장면 레이아웃, 객체의 움직임 및 객체 간 관계와 같은 풍부한 구조적 패턴을 효과적으로 활용할 수 있습니다. StructSA를 주요 구성 요소로 사용하는 구조적 비전 트랜스포머(StructViT)를 개발하여 이미지 및 비디오 분류 작업에서 최첨단 성능을 달성하였습니다.

 

주요 내용 정리


서론

시공간에서 시각적 요소들이 서로 어떻게 상호작용하는지는 비디오에서의 행동 인식이나 이미지에서의 장면 레이아웃 패턴 분석과 같은 시각적 이해를 위해 중요한 단서입니다.
기존의 자기 주의 메커니즘은 개별적인 키-쿼리 상관 관계를 사용하여 지역 구조를 무시합니다. 반면 StructSA는 상관 패턴을 인식하고, 이를 통해 풍부한 시각적 표현 학습을 가능하게 합니다.

구조적 자기 주의 메커니즘 (StructSA)

구조적 쿼리-키 주의 (SQKA): 쿼리-키 상관 관계에 컨볼루션을 적용하여 지역 상관 구조를 인식합니다.
컨텍스트 가치 집계: 인식된 상관 패턴을 사용하여 가치 특징의 지역 컨텍스트를 동적으로 집계합니다.

관계 모델링

다양한 시각적 요소 간의 유사성 패턴을 이해하여 시각 데이터를 더 잘 이해할 수 있습니다.
영상 도메인에서 공간적 자기 상관 관계는 광학 흐름 추정이나 행동 인식을 위한 운동 특징 학습에 활용됩니다.

구조적 비전 트랜스포머 (StructViT)

StructSA를 주요 구성 요소로 채택한 트랜스포머 네트워크입니다.
이미지 분류와 비디오 분류 작업에서 구조적 패턴 학습의 효과를 실험적으로 검증했습니다.
다양한 데이터셋(ImageNet-1K, Kinetics-400 등)에서 최첨단 성능을 달성했습니다.

결론
논문에서는 새로운 주의 메커니즘인 StructSA를 도입하여 시각적 표현 학습의 효과를 극대화했습니다. StructSA는 쿼리-키 상관 관계에서 다양한 구조적 패턴을 인식하고 이를 활용하여 시각적 이해를 향상시킵니다. StructViT는 이미지 및 비디오 분류 작업에서 매우 우수한 성능을 보였으며, 이 접근 방식은 향후 컴퓨터 비전 및 자연어 처리의 다양한 작업에도 적용될 수 있을 것입니다.

요약
이 논문은 새로운 구조적 자기 주의 메커니즘(StructSA)을 소개하여, 시공간 구조를 인식하고 이를 활용해 이미지와 비디오의 시각적 표현 학습을 효과적으로 개선한 내용을 다룹니다. StructViT를 통해 다양한 데이터셋에서 최첨단 성능을 달성했으며, 향후 다양한 응용 가능성을 제시합니다.

https://kimmanjin.github.io/structsa/

 

Learning Correlation Structures for Vision Transformers

We introduce a new attention mechanism, dubbed structural self-attention (StructSA), that leverages rich correlation patterns naturally emerging in key-query interactions of attention. StructSA generates attention maps by recognizing space-time structures

kimmanjin.github.io

오 이거 한번 해볼까...?

 

CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation

더보기

이 논문은 개방형 어휘 의미론적 분할 작업을 위해 CLIP 모델을 적응시키는 새로운 비용 기반 접근 방식을 소개합니다. 제안된 방법인 CAT-Seg는 이미지와 텍스트 임베딩 사이의 코사인 유사도 점수(비용 볼륨)를 집계하여 세그멘테이션 작업에 효과적으로 사용합니다. 이를 통해 학습된 CLIP 인코더를 미세 조정하여, 기존 방법들이 처리하기 어려운 미지의 클래스에 대한 성능을 향상시킵니다.

서론

개방형 어휘 의미론적 분할은 이미지 내의 각 픽셀에 대해 텍스트 설명으로 정의된 다양한 클래스 라벨을 할당하는 작업입니다.
기존의 비전-언어 모델들은 이미지 레벨의 감독을 받으면서 훈련되었기 때문에 픽셀 레벨의 분할 작업에 적용할 때 한계가 있습니다.

 

비용 집계 기반 프레임워크 (CAT-Seg)

비용 볼륨 생성: 이미지와 텍스트 임베딩 사이의 코사인 유사도 점수를 계산하여 비용 볼륨을 생성합니다.
공간 및 클래스 집계: 비용 볼륨을 공간적으로, 그리고 클래스별로 집계하여 더 정교한 예측을 수행합니다.
미세 조정: CLIP 인코더를 미세 조정하여 분할 작업에 적응시킵니다.

실험 결과

여러 표준 개방형 어휘 벤치마크(A-847, PC-459 등)에서 최첨단 성능을 달성하였습니다.
다양한 도메인(지구 모니터링, 의료 과학, 공학 등)에서 강력한 일반화 능력을 보였습니다.

관련 연구

기존의 접근 방식들과 달리, CAT-Seg는 비용 집계를 통해 CLIP을 분할 작업에 적응시키는 것을 목표로 합니다.
전통적인 비용 집계 방법들과는 달리, 멀티모달 비용 볼륨을 효과적으로 집계하는 방법을 탐구합니다.

결론

CAT-Seg는 개방형 어휘 의미론적 분할 작업에서 CLIP 모델을 효과적으로 적응시키는 새로운 비용 기반 프레임워크입니다.
다양한 도메인에서의 뛰어난 성능을 통해 실용성을 입증했습니다.

논문은 CAT-Seg를 통해 개방형 어휘 의미론적 분할 작업에서 CLIP 모델의 성능을 크게 향상시켰다. 

https://ku-cvlab.github.io/CAT-Seg/

 

CAT-Seg🐱: Cost Aggregation for Open-Vocabulary Semantic Segmentation

 

ku-cvlab.github.io

이것두 있네

 

 

 

Slice and Conquer: A Planar-to-3D Framework for Efficient Interactive Segmentation of Volumetric Segmentation

더보기

이 논문에서는 Slice and Conquer (SnC)라는 새로운 3D 이미지 분할 방법론을 제안합니다. SnC는 2단계 파이프라인으로 구성되어 있으며, 첫 번째 단계에서는 2D 상호작용 분할을 통해 사용자가 단일 2D 슬라이스에 집중하여 2D 예측 결과를 강력한 형상 프라이어로 제공하고, 두 번째 단계에서는 3D 모델을 통해 3D 마스크를 정확하게 생성합니다. 이 방법은 사용자 부담을 줄이고 보다 효율적인 3D 분할을 가능하게 합니다.

코드는 안보이네요 

 

 

Retrieval-based Data Discovery and Fusion for Zero-shot Image Captioning

더보기

이 논문은 RETRIEVER라는 새로운 솔루션을 소개합니다. 이는 2023 CVPR NICE Challenge에서 제로샷 이미지 캡셔닝 평가를 목표로 한 솔루션입니다. RETRIEVER는 이미지-텍스트 쌍을 외부 메모리에서 검색하여 캡셔닝 모델의 성능을 향상시키는 두 단계로 구성되어 있습니다. 첫 번째 단계에서는 의도된 대상 데이터셋에 대한 명시적 검색 모듈을 적용하여 훈련을 위한 이미지-텍스트 쌍을 검색하고, 두 번째 단계에서는 훈련 및 추론 중에 입력 샘플과 관련된 지식을 모델에 결합합니다. 이 프레임워크를 통해 모델은 구체적인 지식을 캡션에 쉽게 통합할 수 있으며, 외부 데이터 소스에서 관련 지식을 기반으로 더 나은 캡션을 생성할 수 있습니다.

https://github.com/ytaek-oh/retriever

 

GitHub - ytaek-oh/retriever

Contribute to ytaek-oh/retriever development by creating an account on GitHub.

github.com

 

Counterfactual Mix-Up for Visual Question Answering

더보기

이 논문에서는 Counterfactual Mix-Up (CoMiU)라는 새로운 방법론을 제안합니다. 이는 시각적 질문 응답(Visual Question Answering, VQA)에서 단일 모달 바이어스(unimodal bias)를 완화하기 위한 것입니다. 기존의 반사실적(counterfactual) 방법들은 다양성이 부족하거나 추가적인 데이터 생성을 위해 보조 모델이 필요하다는 단점이 있습니다. CoMiU는 로컬 객체 및 단어 수준에서 배치별 교체를 통해 반사실적 이미지 피처와 질문을 생성하는 더 간단하고 다양한 방법을 제안합니다.

CoMiU는 VQA 모델의 일반화 및 견고성을 개선하기 위한 효율적이고 다양한 반사실적 샘플 생성 방법입니다. 단순한 마스킹 대신, 동적인 방법으로 반사실적 샘플을 생성함으로써 VQA 성능을 향상시킵니다. 또한, 생성된 샘플을 학습 중에 대조 학습 방식으로 활용하는 방법을 제안합니다. 이 방법론은 추가 데이터 없이 VQA-CP2, VQA-CP1, GQA-OOD 테스트 셋에서 최첨단 성능을 보여줍니다.

 

 

 

728x90