반응형

인공지능/논문 리뷰 or 진행 180

준비 중 - Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet - 리뷰

https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 SonnetAuthors Adly Templeton*, Tom Conerly*, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, Alex Tamkin, Esin ..

진행중 - Slice and Conquer: A Planar-to-3D Framework for Efficient Interactive Segmentation of Volumetric Images - 리뷰

여긴 코드가 안보이네요https://ieeexplore.ieee.org/document/10483658 Slice and Conquer: A Planar-to-3D Framework for Efficient Interactive Segmentation of Volumetric ImagesInteractive segmentation methods have been investigated to address the potential need for additional refinement in automatic segmentation via human-in-the-loop techniques. For accurate segmentation of 3D images, we propose Slice-and-Conq..

feature 조절을 통한 LLM 변경 - Mapping the Mind of a Large Language Model - 리뷰

https://www.anthropic.com/news/mapping-mind-language-model Mapping the Mind of a Large Language ModelWe have identified how millions of concepts are represented inside Claude Sonnet, one of our deployed large language models. This is the first ever detailed look inside a modern, production-grade large language model.www.anthropic.com  더보기1. 서론 (Introduction)목적: 이 브리핑의 목적은 AI 모델, 특히 대형 언어 모델(LLMs..

준비중 - Counterfactual Mix-Up for Visual Question Answering - 리뷰 - 준비중

https://ieeexplore.ieee.org/document/10214215 Counterfactual Mix-Up for Visual Question AnsweringCounterfactuals have been shown to be a powerful method in Visual Question Answering in the alleviation of Visual Question Answering’s unimodal bias. However, existing counterfactual methods tend to generate samples that are not diverse or require auxiliieeexplore.ieee.org음 일단 이건 코드가 안보이네요더보기최근 인공지능 ..

진행 예정 - COFFEE: Boost Your Code LLMs by Fixing Bugs with Feedback - 리뷰 및 진행해보기 - 진행 예정

https://arxiv.org/abs/2311.07215 Coffee: Boost Your Code LLMs by Fixing Bugs with FeedbackCode editing is an essential step towards reliable program synthesis to automatically correct critical errors generated from code LLMs. Recent studies have demonstrated that closed-source LLMs (i.e., ChatGPT and GPT-4) are capable of generating correctivearxiv.orghttps://huggingface.co/collections/DLI-Lab/c..

Ever-Evolving Memory by Blending and Refining the Past - 리뷰 및 진행해보기 - 아직 코드 X

https://arxiv.org/abs/2403.04787 Ever-Evolving Memory by Blending and Refining the PastFor a human-like chatbot, constructing a long-term memory is crucial. However, current large language models often lack this capability, leading to instances of missing important user information or redundantly asking for the same information, thereby dimiarxiv.org https://linnk.ai/insight/%EC%9D%B8%EA%B3%B5%E..

Tuning Large Multimodal Models for Videos using Reinforcement Learningfrom AI Feedback 리뷰 및 진행해보기 - 코드 X

https://arxiv.org/abs/2402.03746 Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI FeedbackRecent advancements in large language models have influenced the development of video large multimodal models (VLMMs). The previous approaches for VLMMs involved Supervised Fine-Tuning (SFT) with instruction-tuned datasets, integrating LLM with visual encoarxiv.orghttps://githu..

CAT-Seg🐱: Cost Aggregation forOpen-Vocabulary Semantic Segmentation 리뷰 및 진행해보기 - 진행 중

https://ku-cvlab.github.io/CAT-Seg/ CAT-Seg🐱: Cost Aggregation for Open-Vocabulary Semantic Segmentation ku-cvlab.github.io  더보기요약오픈 보캐뷸러리 의미 분할(Open-Vocabulary Semantic Segmentation)은 이미지 내 각 픽셀을 텍스트 설명에 기반한 클래스 레이블로 지정하는 문제입니다. 이 논문은 CLIP 모델을 기반으로 이미지와 텍스트 임베딩 간의 코사인 유사도 점수(비용 볼륨)를 집계하는 새로운 방법을 제안합니다. 이 방법은 기존 모델들이 보지 못한 클래스에 대한 처리 문제를 해결하며, CLIP의 인코더를 미세 조정하여 세분화 작업에 적응시킵니다.주요 내용오픈 보캐뷸러리 의미 ..

Learning Correlation Structures for Vision Transformers 리뷰 및 진행 해보기 - 아직 코드 X

https://kimmanjin.github.io/structsa/더보기논문 요약:Learning Correlation Structures for Vision Transformers주요 내용 요약:이 논문은 구조적 자기-어텐션(StructSA)이라는 새로운 어텐션 메커니즘을 소개합니다. 이는 시각적 표현 학습을 위해 쿼리와 키의 상호작용에서 자연스럽게 나타나는 풍부한 상관 구조를 활용합니다. StructSA는 컨볼루션을 통해 공간-시간 구조를 인식하여 어텐션 맵을 생성하고, 이를 사용하여 값 피처의 로컬 컨텍스트를 동적으로 집계합니다. 이를 통해 이미지와 비디오에서 장면 배치, 객체 움직임, 객체 간 관계와 같은 다양한 구조적 패턴을 효과적으로 활용할 수 있습니다. StructSA를 주요 구성 요소로 사..

인공지능 프로젝트 준비하기

https://rail.eecs.berkeley.edu/deeprlcourse/ CS 285GSI Joey Hong joey_hong@berkeley.edu Office Hours: Wednesday 3:30PM-4:30PM (BWW Room 1215)rail.eecs.berkeley.edu이 것도 하나의 과제가 될 수 있어 보이네요ㅣ... Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback더보기최근의 대형 언어 모델(LLM) 발전은 비디오 대형 멀티모달 모델(VLMM)의 개발에 영향을 미쳤습니다. 기존 접근 방식은 지도 학습과 시각적 인코더 통합을 포함하지만, 텍스트와 비디오의 정렬에는 어려움이 있..

728x90
728x90