https://arxiv.org/abs/2501.03218
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
Active Real-time interaction with video LLMs introduces a new paradigm for human-computer interaction, where the model not only understands user intent but also responds while continuously processing streaming video on the fly. Unlike offline video LLMs, w
arxiv.org
기존 Video LLM들은 실시간 처리가 불가능 했다.
Perception, Decision, Reaction 단계로 나누어 실시간으로 비디오 처리를 진행한다.

기존 Video LLM들은 인지와, 응답을 생성하는 모듈 모두 같은 모델을 사용하여 동시에 진행할 수 없었지만, Dispider은 지각 모듈, 트리거할 시기를 결정하는 결정 모듈, 응답을 생성하는 모듈이 다 따로 존재해 실시간 처리가 가능하다.
Perception 모듈은 지속적으로 비디오 입력을 처리하고, Decision 모듈은 이전 Decision 토큰들, Perception 모듈의 시각 정보를 포함한 전체 상호작용 기록을 통합해 트리거를 통해 응답을 제공할지 결정합니다.
이러한 과정을 통해 중단되지 않으며 유동적이고 지속적인 의사 흐름이 보장된다.
모듈 | 역할 | 구성 모델 | 설명 |
Perception | 실시간 영상 지각 | Compact Vision Encoder + Lightweight LLM (Qwen2-1.5B) | SigLip을 기반으로 영상에서 의미 있는 scene segment들을 감지하고, 각 장면을 클립 특징 (Fi)로 변환 |
Decision | 응답 여부 판단 | 같은 Qwen2-1.5B (Compact LLM 재사용) | ⟨TODO⟩ 토큰 위치에서 현재까지 본 클립 + 질문 + 응답 이력 기반으로 "지금 응답할까?"를 판단 (binary classification) |
Reaction | 답변 생성 | 큰 LLM (Qwen2-7B) | Trigger가 발생한 시점에서, 관련된 클립들을 retrieval하여 자연어 응답을 생성. 멀티홉 추론 가능 |
구성 요소 | 기능 요약 | 핵심 입력 | 내부 처리 | 핵심 출력 | 토큰 | 예시 |
1. Perception (Scene-based) | 실시간 영상 스트림에서 의미 있는 장면 단위로 클립 분할 및 특징 추출 | 연속 영상 스트림 V = {v₁, v₂, ..., vₜ} | - 일정 간격 프레임 추출 - SigLip 임베딩 - Cosine 유사도로 장면 전환 감지 - 최소 길이 보장 (exclusion window) |
- 각 클립의 특징 Fᵢ - 클립 인디케이터 F̂ᵢ |
없음 (모듈 내부 처리) | 🎬 요리 영상 중 “재료 꺼냄”, “칼질 시작” 등의 장면을 의미 있는 단위로 분리 |
2. Decision (Real-time Response Decision) | 지금까지 본 영상과 질문을 바탕으로 응답 여부를 판단 | - 클립 특징 F[0:t] - 질문 Q - 과거 응답 메모리 M |
- 입력 시퀀스: F[0:qpos] ⊕ Q ⊕ ⟨TODO⟩ - 이후: M[0:qpos] ⊕ Q ⊕ F[qpos:] ⊕ ⟨TODO⟩ - ⟨TODO⟩ 위치에서 Binary Classification |
- 응답할 경우: ⟨ANS⟩로 트리거 - 아닐 경우: 유지 |
⟨TODO⟩, ⟨ANS⟩ 토큰 | ✅ “지금은 답할 시점 아님” 판단 가능 ✅ 반응 모듈과 독립되어 비동기 판단 가능 |
3. Reaction (Asynchronous Interaction) | Trigger 발생 시, 질문과 관련된 클립을 기반으로 자연어 응답 생성 | - 질문 Q - 이전 응답들 - 트리거된 시점의 클립들 |
- ⟨TODO⟩ 임베딩 ↔ 각 클립 인디케이터 F̂ᵢ 유사도 계산 - Softmax → 관련도 분포 P̂_pred - Ground-truth 분포 P̂_true와 KL Divergence 학습 |
자연어 응답 또는 ⟨SILENT⟩ | KL Divergence Loss, ⟨SILENT⟩ | 📌 멀티-홉 추론 지원 📌 응답 필요 없는 경우 silence도 학습 |

과정을 한눈에 보여준다.
Compact LLM 마지막에 이진 분류 헤드를 달아서 할일 토큰을 결정하게 됩니다.


EgoSchema는 Long time dependence가 필요한데 잘 해내는 모습을 볼 수 있다. - 아마 Memory 모듈이 있어서 그렇지 않나 싶다.

기존 모델에 비해 확실히 관련된 답변을 잘 하고, 침묵을 지켜야 할 때는 잘 침묵하는 모습을 볼 수 있다.
🔍 연구 배경 및 문제의식 | 기존 Video LLM은 전체 영상을 본 뒤 한 번에 응답하는 오프라인 방식이 많았음. 실시간 스트리밍 환경에선 지각(Perception)과 응답(Reaction)을 동시에 처리하지 못함. 특히 autoregressive LLM은 응답 중 비디오를 보지 못해 실시간 상호작용 불가. |
🎯 연구 목표 | 실시간 비디오 스트림에서, 사용자의 질문에 적절한 시점에 끊김 없이 응답 가능한 시스템 설계. 반응 중에도 지각을 지속하며, 불필요한 응답은 억제하고 필요한 시점에만 정확히 응답하는 능동적 비디오 LLM 구현 |
💡 핵심 기여 | ① Perception–Decision–Reaction 구조 분리 및 비동기 병렬 처리 ② 장면 기반 클립 분할(Scene-based segmentation) ③ 응답 타이밍 판단용 ⟨TODO⟩, 응답 생성 마킹 ⟨ANS⟩, 침묵 제어 ⟨SILENT⟩ 토큰 도입 ④ 실시간 QA를 위한 별도 데이터셋 구축 및 학습 |
🧠 전체 구조 | 1. Scene-based Perception: SigLip 기반으로 장면 단위로 클립 나눔 2. Decision Module: ⟨TODO⟩ 위치에서 "응답할지 말지" 판단 3. Asynchronous Reaction: 결정된 순간에만 반응 생성, 관련 클립 자동 검색 → 세 모듈이 병렬 동작함으로써 지각-판단-응답이 동시에 가능 |
🧪 주요 성능 결과 | 📌 Streaming QA (StreamingBench, ETBench) - Proactive Output: 기존 모델 압도 - 응답 타이밍 정확성 및 Temporal Grounding 우수 📌 Offline QA (EgoSchema, MLVU 등) - 긴 비디오 QA에서도 경쟁력 있는 정확도 확보 |
⚙️ Ablation Insight | - Scene-based segmentation이 uniform보다 전반적 성능 우수 - ⟨TODO⟩, ⟨ANS⟩, ⟨SILENT⟩ 세 토큰 모두 성능 향상에 기여 - 실시간 QA의 핵심은 응답 여부와 시점 판단 능력에 있음 |
📚 의미 및 확장성 | - 단순히 "비디오 QA 성능이 좋은 모델"이 아니라, 실시간 인터랙션 구조 자체를 재정의 - 멀티 에이전트 협업, 지속적인 비디오 모니터링, 모바일 환경 경량화 구조 등에 응용 가능 |
✅ 결론 요약 | Dispider는 기존 LLM의 구조적 제약을 극복하고, 실시간 비디오 QA에 최적화된 모듈화 구조를 제시함. 능동적이고 시점 중심의 반응이 가능하며, 다양한 실제 응용에 즉시 활용 가능한 수준의 시스템으로 자리 잡음. |
논문 선택 및 접근 방법 분석: Video LLM 연구 논문 리뷰 작성을 위한 가이드
귀하의 NLP, Agent, XAI, Generation 관심 분야를 고려했을 때, 세 논문 중 Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction 논문이 가장 적합할 것으로 판단됩니다. 아래에서 그 이유와 리뷰 작성 접근법을 상세히 설명드리겠습니다.
왜 Dispider 논문이 가장 적합한가?
1. 연구 관심사와의 정렬도
분석 결과, Dispider는 귀하의 주요 관심 분야와 다음과 같이 높은 정렬도를 보입니다:
- NLP: 비디오 이해를 위한 언어 모델 활용 (4/5)
- Agent: 실시간 상호작용 및 의사결정 메커니즘 구현 (5/5, 세 논문 중 최고)
- XAI: 분리된 아키텍처로 의사결정 과정 추적 가능 (3/5)
- Generation: 다양한 상황에 대응하는 응답 생성 능력 (4/5)
2. 기술적 혁신성
Dispider는 비디오 LLM을 위한 분리된(disentangled) 아키텍처를 제안하며
- Perception: 실시간 비디오 모니터링 및 상호작용 캡처
- Decision: 적절한 상황에서 선제적 상호작용 유도
- Reaction: 사용자와의 지속적 상호작용
이러한 비동기식 설계는 장시간 비디오 스트림에서 시기적절하고 정확한 응답을 가능하게 합니다
3. 연구 영향력 및 재현성
- CVPR 2025에 채택된 최신 연구 (2025년 1월 발표)
- 공식 GitHub 저장소(92 stars, 5 forks)
- HuggingFace에 체크포인트 공개
4. 다른 논문과의 비교
- VideoRefer Suite: 객체 이해에 초점을 맞추고 있으나 실시간 상호작용 측면에서는 Dispider보다 약함
- Seq2Time: 코드 공개가 확인되지 않아 재현성이 낮으며, Agent 측면에서 가장 낮은 점수 획득
리뷰 작성 접근 방법
Summary 섹션 작성법
Dispider의 핵심 기여도와 접근법에 집중하세요:
- 비디오 LLM을 위한 실시간 상호작용의 새로운 패러다임 소개
- 인식(Perception), 결정(Decision), 반응(Reaction)을 분리하는 혁신적 아키텍처
- 비동기 작동 방식이 기존 오프라인 비디오 LLM과 어떻게 차별화되는지
- 실시간 스트리밍 비디오 처리 및 경량 모듈의 기술적 특징
다음과 같이 시작할 수 있습니다:
"Dispider는 비디오 LLM에 실시간 상호작용 능력을 부여하는 혁신적인 프레임워크를 제안합니다. 기존의 오프라인 비디오 LLM과 달리, Dispider는 비디오 스트림을 지속적으로 처리하면서 동시에 사용자와 상호작용할 수 있는 능력을 갖추고 있습니다..."
Strengths and Weaknesses 섹션 작성법
Originality 측면에서:
- 강점: 인식, 결정, 반응의 분리 아키텍처, 비동기식 설계, 실시간 처리 능력
- 약점: 다른 스트리밍 비디오 처리 연구와의 비교가 제한적일 수 있음
Quality 측면에서:
- 강점: StreamingBench와 기존 비디오 벤치마크에서의 우수한 성능6, 사용 가능한 코드 및 모델
- 약점: 계산 요구사항이 높을 수 있음, 단일 기여자에 의한 개발
Clarity 측면에서:
- 강점: 명확한 문제 정의, 세 가지 핵심 능력의 구분, 아키텍처 설명
- 약점: 구현 세부사항 설명이 부족할 수 있음, 기술적 복잡성
Significance 측면에서:
- 강점: 실시간 비디오 상호작용의 새로운 패러다임, Agent 기반 시스템에 응용 가능
- 약점: 특정 도메인에 한정된 평가일 수 있음, 실제 환경에서의 검증 부족
Possible Enhancements 섹션 작성법
다음과 같은 향상 가능성을 고려하세요:
- XAI 기능 강화: 의사결정 과정의 투명성 향상 방안
- 다양한 도메인에 대한 평가 확장: 의료, 교육, 보안 등 다른 영역으로의 적용성
- 계산 효율성 개선: 경량화 기법 적용 또는 모듈 최적화
- 다중 에이전트 상호작용 지원: 여러 사용자와 동시에 상호작용하는 기능
- 다양한 언어 지원: 다국어 환경에서의 성능 검증
리뷰 작성 팁
- 논문 전체를 꼼꼼히 읽고 이해한 후 리뷰 작성을 시작하세요.
- 구체적인 예시와 증거를 들어 주장을 뒷받침하세요.
- 기술적 용어를 정확하게 사용하되, 전체적인 흐름이 명확하게 이어지도록 작성하세요.
- 비판적 분석과 함께 건설적인 제안을 균형있게 제시하세요.
- 연구의 장단점을 객관적으로 평가하되, 공손하고 존중하는 톤을 유지하세요.
위 가이드를 따라 Dispider 논문에 대한 리뷰를 작성하시면, NLP, Agent, XAI, Generation에 대한 귀하의 관심사를 잘 반영하면서도 학술적으로 가치 있는 리뷰가 될 것입니다.
Citations:
- https://arxiv.org/abs/2411.16932
- https://arxiv.org/abs/2501.00599
- https://arxiv.org/abs/2501.03218
- https://arxiv.org/html/2411.16932v1
- https://arxiv.org/html/2501.00599v2
- https://github.com/Mark12Ding/Dispider
- https://sebastianraschka.com/blog/2025/llm-research-2024.html
- https://www.themoonlight.io/review/dispider-enabling-video-llms-with-active-real-time-interaction-via-disentangled-perception-decision-and-reaction
- https://aclanthology.org/2024.emnlp-main.1209.pdf
- https://arxiv.org/html/2501.00599v1
- https://nlp.ict.ac.cn/en/academic_news/202501/t20250123_377987.html
- https://github.com/aistairc/seq2seq_temporal_attention
- https://huggingface.co/papers/2501.03218
- https://chi2025.acm.org/for-authors/papers/
- https://www.reddit.com/r/github/comments/12x7a1o/showing_contributors_for_forked_repo/
- https://github.com/opengvlab
- https://github.com/Yale-LILY/yale-lily.github.io/blob/master/spider.md
- https://stackoverflow.com/questions/66609900/how-to-order-github-forks-by-stars-watchers-commits-using-the-github-api
- https://github.com/OpenGVLab/efficient-video-recognition
- https://www.youtube.com/watch?v=h8suY-Osn8Q
- https://github.com/sooftware/seq2seq
- https://github.com/facebookresearch/Replica-Dataset
- https://github.com/bentrevett/pytorch-seq2seq
- https://github.com/facebookresearch/moco-v3
- https://github.com/ZixuanKe/CAT
- https://github.com/IBM/CrossViT
- https://www.youtube.com/watch?v=sZENQ1iBUWQ
- https://xaiworldconference.com/2025/xai-for-representational-alignment/
- https://sentic.net/explainable-artificial-intelligence.pdf
- https://openreview.net/forum?id=iKsTtpzBtc
- https://dokumen.pub/linux-cookbook-essential-skills-for-linux-users-and-system-amp-network-administrators-2nbsped-1492087165-9781492087168.html
- https://discuss.pytorch.kr/t/2025-01-13-01-19-ml-top-ml-papers-of-the-week/5917
- https://github.com/DAMO-NLP-SG/VideoRefer
- https://www.nature.com/articles/s41598-025-94208-6
- https://www.themoonlight.io/ko/review/videorefer-suite-advancing-spatial-temporal-object-understanding-with-video-llm
- https://arxiv.org/html/2501.03218v1
- https://arxiv.org/html/2404.16038v1
- https://arxiv.org/html/2502.11594v2
- https://arxiv.org/html/2312.17432v4
- https://scholar.google.com/citations?user=6CDjuw4AAAAJ
- https://www.paperdigest.org/2024/10/most-influential-arxiv-artificial-intelligence-papers-2024-10/
- https://arxiv.org/html/2501.13106v2
- https://github.com/azminewasi/Awesome-LLMs-ICLR-24
- https://github.com/CircleRadon/Osprey
- https://github.com/DAMO-NLP-SG
- https://www.a-star.edu.sg/cfar/news/news/features/18-papers-accepted-at-iclr-2025
- https://github.com/pipixin321/Awesome-Video-MLLMs
- https://coling2025.org/program/main_conference_papers/
- https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding
- https://paperswithcode.com/search?q=author%3ABoqiang+Zhang&order_by=stars
- https://github.com/showlab/Awesome-Video-Diffusion
- https://2025.naacl.org/program/accepted_papers/
- https://github.com/xlang-ai/Spider2
- https://ericgreer.info/post/judging-the-stupidity-of-github-projects/
- https://github.com/OpenGVLab/InternVideo/blob/main/Data/InternVid/demo.ipynb
- https://github.com/awslabs/diagnostic-robustness-text-to-sql
- https://github.com/showlab/Awesome-Unified-Multimodal-Models
- https://github.com/OpenGVLab/video-mamba-suite
- https://simonjisu.github.io/study/paper/2021-04-12-spider/
- https://github.com/Xnhyacinth/Awesome-LLM-Long-Context-Modeling
- https://docs.github.com/en/get-started/exploring-projects-on-github/saving-repositories-with-stars
- https://github.com/OpenGVLab/InternVideo
- https://www.databricks.com/blog/improving-text2sql-performance-ease-databricks
- https://www.themoonlight.io/review/seq2time-sequential-knowledge-transfer-for-video-llm-temporal-grounding
- https://paperswithcode.com/task/dense-video-captioning/codeless
- https://huggingface.co/papers/2411.17991
- https://openreview.net/forum?id=RJ7XFI15Q8f
- https://github.com/axeber01/point-tnt
- https://www.semanticscholar.org/paper/LITA:-Language-Instructed-Temporal-Localization-Huang-Liao/d068f7fbed51ffb542f7f54528955f48dace0934
- https://huggingface.co/papers/2501.00599
- https://github.com/cvlab-kaist/NoiseRefine
- https://www.aimodels.fyi/papers/arxiv/temporal2seq-unified-framework-temporal-video-understanding-tasks
- https://openreview.net/forum?id=mMfDfJ8JFJ
- https://github.com/dair-ai/ML-Papers-of-the-Week
- https://arxiv.org/html/2405.06064v1
- https://www.nature.com/articles/s42256-023-00692-8
- https://github.com/Hannibal046/Awesome-LLM
- https://icml.cc/Downloads/2024
- https://arxiv.org/html/2401.13110v1
- https://iclr.cc/virtual/2025/papers.html
- https://iclr.cc/virtual/2024/papers.html
- http://arxiv.org/pdf/2308.11432.pdf
- https://github.com/monologg/nlp-arxiv-daily?search=1
- https://www.arxivdaily.com/thread/61820
- https://www.chatpaper.ai/paper/07115262-5809-45a8-ab3d-550f5b36a9a4
- https://www.linkedin.com/pulse/llm-papers-reading-notes-february-2025-jean-david-ruvini-jqdgc
- https://www.themoonlight.io/ko/review/dispider-enabling-video-llms-with-active-real-time-interaction-via-disentangled-perception-decision-and-reaction
- https://www.byteplus.com/en/topic/392827
- https://hatchworks.com/blog/gen-ai/large-language-models-guide/
- https://huggingface.co/DAMO-NLP-SG/VideoRefer-7B
- https://www.reddit.com/r/LocalLLaMA/comments/149xhln/local_llms_after_novelty_wanes/
다음은 논문 "Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction"의 체계적이고 단계적인 한글 요약입니다.
🔍 문제 정의: 실시간 영상 스트리밍에서의 능동적 상호작용 문제
기존 비디오 LLM(Video LLM)들은 대부분 오프라인 방식으로, 전체 비디오를 본 뒤 응답을 생성합니다. 하지만 실제 사용 환경은 실시간 스트리밍 상황으로, 사용자가 질문을 던지면 즉각적인 응답이 필요합니다. 이를 해결하기 위해선 세 가지 핵심 기능이 요구됩니다:
- Perception (지각): 실시간 비디오 스트림 모니터링
- Decision (결정): 언제 상호작용을 유도할지 판단
- Reaction (반응): 사용자에게 적절한 시점에 응답
하지만 기존 방식(VideoLLM-online 등)은 지각과 반응이 동시에 불가능합니다. 이는 Autoregressive decoding이 응답 생성 중에는 입력 처리를 중단시키기 때문입니다.
💡 Dispider의 핵심 아이디어
Dispider는 Perception, Decision, Reaction을 비동기적(asynchronous)으로 분리(disentangle)하여 동시에 작동하도록 설계된 실시간 비디오 LLM입니다.
주요 구성 요소:
- Scene-based Perception Module
- SigLip을 사용해 비디오 장면 전환을 감지
- 의미 있는 장면 단위로 비디오를 비균일하게 분할
- 장면 특징을 추출하고 클립 지시자(clip indicator)와 함께 저장
- Real-time Response Decision Module
- 질문이 주어진 후 ⟨TODO⟩ 토큰을 통해 응답이 필요한지 판단
- 히스토리(기억), 질문, 클립 특징을 결합한 시퀀스를 생성
- ⟨ANS⟩ 토큰으로 응답 시점을 마킹
- ⟨TODO⟩ 위치에서 Binary Classification을 통해 응답 여부 결정
- Asynchronous Interaction Module
- 반응이 필요한 경우 별도의 모듈이 응답 생성
- 실시간 영상 처리와 동시에 작동
- 관련 장면 클립 검색을 위해 ⟨TODO⟩ 임베딩과 클립 간 cosine similarity 계산
- ⟨SILENT⟩ 토큰으로 필요 없는 응답 차단
⚙️ 학습 방법 및 데이터셋 구성
- 두 단계 학습
- 1단계: perception과 decision 모듈을 GroundVQA, ET-Instruct 등으로 학습
- 2단계: frozen 상태에서 interaction 모듈만 학습 (Streaming QA 데이터셋: 122K 쌍 구성)
- 특징
- Qwen2-1.5B를 compact processor로 사용
- Qwen2-7B는 정교한 응답 생성을 담당
📊 실험 결과
1. StreamingBench 및 ETBench에서 우수한 성능
- Proactive Output Task: 사용자 질문에 기반해 적절한 시점에 응답해야 하는 과제
- VideoLLM-online 대비 월등한 성능 (Temporal grounding, captioning 등에서도 우수)
- 특히 비동기 구조 덕분에 비디오 재생 중단 없이 응답 가능
2. Long Video QA Benchmarks (EgoSchema, MLVU, VideoMME)
- 다양한 길이의 영상 QA 문제에서도 경쟁력 확보
- 장기적인 temporal reasoning에서도 상위권 성능
3. Ablation Study
- Scene-based segmentation이 uniform segmentation보다 정확도, temporal awareness 우수
- Special tokens (⟨TODO⟩, ⟨ANS⟩, ⟨SILENT⟩) 모두 응답 정확도와 시간 정렬 향상에 중요한 역할
🧠 Chain-of-Thought 요약
- 실시간 영상 LLM은 perception과 response가 동시에 필요 → 기존 구조로는 병행 어려움
- Dispider는 세 기능(Perception, Decision, Reaction)을 완전히 분리하여 비동기적으로 작동
- 장면 단위 지각, 결정 모듈의 이중 메모리 구조, 반응 모듈의 다중 히스토리 검색 설계
- 이러한 구조 덕분에 지각은 지속, 결정은 주기적으로, 반응은 별도 생성 가능
- 실험 결과, 지연 없이 응답하고도 더 높은 정확도 달성, 특히 Proactive QA 성능 우수
🔮 연구 확장 가능성
- 다중 사용자 인터랙션 또는 에이전트 기반 영상 탐색 응용에 적합
- 모듈 분리 구조를 활용한 압축형 edge 디바이스용 영상 LLM 설계
- ⟨TODO⟩ 기반의 타임센서블 추론은 음성, IoT 등 실시간 스트리밍 멀티모달 영역에도 확장 가능
원하시면 Ablation study 수치 정리, 구조 그림 요약, Streaming QA 포맷 변형 등에 대해서도 정리해드릴 수 있습니다. 다음 단계로 어떤 부분이 궁금하신가요?
좋습니다. 아래는 Dispider 논문을 기반으로 관련된 주요 연구 흐름과 함께 기존 논문들과의 차이점을 AI 전문가 관점에서 쉽게 설명한 분석입니다.
🔍 Dispider와 관련된 연구 분야 및 대표 논문 정리
Dispider가 다루는 주제는 크게 세 가지 카테고리로 나뉩니다.
1️⃣ 멀티모달 대형 언어 모델 (Multimodal LLMs)
✅ 핵심 개념
텍스트 외에 이미지, 비디오, 오디오 등의 다양한 입력을 함께 이해하고 응답하는 LLM.
🔸 대표 연구
- Flamingo (DeepMind, 2022)
Few-shot 비주얼-언어 모델. 비디오보다는 이미지 기반. - BLIP-2 / InstructBLIP (Salesforce, 2023)
이미지-텍스트 task에 강함. instruction tuning 기반 멀티모달 reasoning 가능. - LLaVA, LLaVA-Next, LLaVA-OneVision
GPT 계열 LLM과 CLIP 기반 시각 정보 융합. Zero-shot 및 open-vocabulary QA 강화. - GPT-4V (OpenAI, 2023)
GPT-4 기반의 비전 기능 탑재. 비공개지만 강력한 멀티모달 능력으로 벤치마크 주도.
이들은 대체로 "정적인 이미지 또는 짧은 비디오 클립" 기반 reasoning에 집중.
2️⃣ 비디오 LLM (Video LLM)
✅ 핵심 개념
장시간 비디오 입력에 대해 이해하고, 시점 인식, 이벤트 인식, 요약, 질의응답 등을 수행
🔸 대표 연구
- VideoChat, VideoChatGPT
멀티모달 alignment로 시각 흐름과 언어 간 연결. 자연스러운 다중 응답 제공. - TimeChat
시간 흐름을 기반으로 temporal reasoning을 강화한 구조. - MovieChat
장시간 영화 데이터를 sparse memory 구조로 압축, long-form QA에 적합. - Video-LLaMA2 / InternVL-V2
다양한 비디오 길이에 대응. 기본적으로 offline QA 중심.
대부분의 Video LLM은 오프라인 방식으로 비디오 전체를 본 후 응답을 생성.
3️⃣ 스트리밍 비디오 이해 (Streaming Video Understanding)
✅ 핵심 개념
비디오가 실시간으로 재생되는 동안 즉각적인 이해와 응답을 제공하는 시스템 설계
🔸 대표 연구
- VideoLLM-online [CVPR 2024]
LLaMA 기반 비디오 스트리밍 QA 시스템. autoregressive 구조 때문에 지각과 반응을 병행하지 못함. - Flash-VStream
메모리 효율성과 latency 개선이 목적. 실시간 상호작용은 아님. - StreamingBench, ETBench
스트리밍 환경에서의 QA를 측정할 수 있는 주요 벤치마크
실시간 시스템의 연구는 초기 단계이며 대부분 반응 지연(latency)와 context overflow 문제를 겪음.
⚔️ Dispider의 차별점: 전문가 관점에서 쉽게 설명
🧠 기존 방식: 한 뇌로 여러 일 처리 = 병목
기존 Video LLM (특히 VideoLLM-online)은 하나의 LLM이 비디오 분석과 답변 생성을 번갈아 수행합니다.
→ 마치 한 명이 화면을 보고 있다가, 갑자기 키보드를 치느라 더 이상 화면을 못 보는 것과 같습니다.
→ 결과: 실시간 반응 불가, 반응 타이밍 부정확
🧩 Dispider: 뇌를 나눠 역할 분리
Dispider는 Perception / Decision / Reaction을 서로 독립된 모듈로 완전히 분리하고 비동기(Asynchronous) 처리합니다.
→ 즉, 한 명은 계속 영상을 관찰하고 (Perception),
→ 다른 한 명은 지금 말할 시점인지 판단하고 (Decision),
→ 또 다른 한 명은 실제로 응답을 생성 (Reaction)
→ 이 구조 덕분에 반응을 하면서도 실시간 영상 처리가 멈추지 않음
📽️ 구조적 차이 핵심 정리
구성 요소 | 기존 방법 | Dispider |
영상 처리와 응답 | 한 모델이 번갈아 처리 | 비동기 처리로 병렬 수행 가능 |
시점 인식 | 질문 후 전체 영상 본 뒤 응답 생성 | 질문이 시작될 때부터 응답 타이밍을 실시간 추론 |
응답 시점 결정 | 명시적 판단 모듈 없음 | ⟨TODO⟩ 토큰 기반 응답 시점 판단 (Decision 모듈) |
응답 생성 | 반응 중 지각 중단 (Blocking) | ⟨ANS⟩ 토큰으로 응답 시작, 이후도 계속 지각 가능 |
응답 판단 오류 | 무조건 응답 | ⟨SILENT⟩ 토큰으로 불필요 응답 억제 가능 |
🚀 결론: Dispider의 기여 요약
- 실시간 비디오 상호작용에 특화된 구조 설계 (3단 분리형 구조)
- 지각-결정-반응의 완전 병렬화로 latency 최소화 및 temporal 정확도 향상
- 다양한 스트리밍 및 장시간 QA 벤치마크에서 SOTA 수준의 성능 입증
- Scene-aware segmentation + TODO/ANS/SILENT token 설계로 정밀도 향상
- 향후 멀티 에이전트 협업, 모바일 디바이스 실시간 분석 등으로의 확장 가능
더 깊이 있는 내용으로는:
- Streaming QA 응답 타이밍 평가 방식,
- FlashAttention/Transformer 연산 병렬화와의 연계 가능성,
- Reinforcement Learning 기반 응답 정책 최적화 방법 등도 논의할 수 있습니다.
혹시 위 내용 중 확장해서 알고 싶은 부분이 있나요? 아니면 관련된 논문 중 실험 방식이나 구조에 대해 더 비교해볼까요?
Dispider 논문의 방법론(Method*은 기존 Video LLM들이 풀지 못했던 실시간 영상 상호작용의 병목 문제를 해결하기 위해, 지각(Perception), 결정(Decision), 반응(Reaction)의 세 기능을 완전히 분리하고 비동기 처리로 병렬화한 것이 핵심입니다. 아래에 체계적으로 정리하고, 직관적인 예시를 통해 쉽게 풀어 설명드리겠습니다.
🎯 Dispider의 방법론: 구조와 작동 방식
1️⃣ 문제 정의
영상 스트리밍 도중, 언제 응답할지, 무슨 내용을 기반으로 응답할지, 그리고 응답하는 동안에도 계속 영상을 지켜볼 수 있도록 설계하는 것이 목표.
이를 위해 다음과 같은 세 가지 기능을 모듈로 분리해 처리합니다:
- Perception: 실시간으로 비디오를 끊임없이 분석
- Decision: 응답할 타이밍을 판단
- Reaction: 응답을 생성 (문장 출력)
2️⃣ 구조 요약: 전체 파이프라인
[Streaming Video]
↓
[Scene-based Perception Module]
↓
[Real-time Decision Module] ───────────► (Trigger)
↓ │
[Asynchronous Interaction Module] ◄────┘
3️⃣ 각 모듈의 작동 방식 (전문가 관점 + 예시 포함)
🟩 ① Scene-based Perception Module (지각)
✅ 목적:
영상 스트림을 의미 있는 단위(장면 기준)로 나누어 분석 효율을 높임
✅ 작동 방식:
- 일정 간격으로 프레임을 추출하여 SigLip으로 임베딩
- Cosine 유사도 기반으로 장면 전환 감지
- 지나치게 짧은 클립 방지 위해 exclusion window 적용
- 각 장면 클립 → Fi (feature vector), F̂i (clip indicator) 생성
💡 예시:
요리 영상에서 "야채 손질 → 고기 굽기 → 김치 넣기" 단계가 있을 때,
각각의 장면 전환을 감지하여 클립 단위로 나눔.
클립마다 핵심 정보를 요약한 벡터로 변환함.
🟨 ② Real-time Response Decision Module (결정)
✅ 목적:
현재까지 본 영상과 과거 대화를 기반으로 응답할지 말지 판단
✅ 핵심 구조:
- 입력:
이전 메모리(M) + 질문(Q) + 클립 특징들(F) + ⟨TODO⟩
- 출력:
- 응답이 필요하면 ⟨ANS⟩ 생성
- 아니면 아무 말도 하지 않음 (비응답 상태 유지)
✅ 특징:
- ⟨TODO⟩ 토큰 위치에서 binary classification (respond or wait)
- 응답 생성 모듈과 분리되어 있어 반응 중에도 계속 판단 가능
💡 예시:
사용자가 "이 사람이 요리하는 순서를 설명해줘"라고 질문하면,
모델은 "지금은 준비만 하고 있으니 아직 설명 안 해도 됨"이라고 판단할 수 있음.
그러다 고기를 굽는 장면이 나오면 ⟨ANS⟩를 통해 응답을 트리거함.
🟥 ③ Asynchronous Interaction Module (반응)
✅ 목적:
결정 모듈에서 트리거되면, 이전 응답 + 관련 영상 클립을 기반으로 자연스러운 문장 생성
✅ 핵심 기술:
- ⟨TODO⟩ 토큰 임베딩과 각 클립 인디케이터 F̂i 간의 cosine 유사도 계산
- 유사도가 높은 클립을 멀티-홉으로 retrieval하여 답변 생성
- ⟨SILENT⟩ 토큰도 도입해, 불필요한 응답 억제 기능 추가
💡 예시:
사용자가 "배고파요. 뭘 먹을 수 있나요?"라고 질문하고, 영상에 식사가 등장한다면:
해당 시점에서 관련 클립을 모아
"지금 식사 시간이네요. 따뜻한 스프와 밥이 제공되고 있습니다."
와 같은 응답을 생성
4️⃣ 전체 예시 시나리오: 이해 중심
💬 사용자 질문: "목이 마른데 어떻게 하면 좋을까?"
1. [Perception]
- 영상에서 주방, 물병, 커피포트 등이 나타나는 시점을 장면 단위로 나눔
2. [Decision]
- 처음엔 아무 반응 없음
- 컵이 놓이는 장면, 물을 따르는 장면에서 ⟨ANS⟩ 발생
3. [Reaction]
- "물병이 테이블 위에 있어요. 컵에 따라 마실 수 있어요."
또는
- "커피포트가 켜졌어요. 뜨거운 음료도 가능해요."
라는 응답 생성
이 모든 동안 영상 처리는 중단되지 않음.
5️⃣ 추가 기술 요소 요약
요소 | 설명 |
⟨TODO⟩ | "응답할 시점인가?"를 판단하는 인디케이터 |
⟨ANS⟩ | "여기서 응답 시작"을 나타내는 마커 |
⟨SILENT⟩ | 실제 응답을 막는 필터 역할 |
Clip Memory Pool | 장면 간 long-term memory 관리용 |
KL Divergence Loss | 클립 중요도 예측 훈련용 (GT relevance와 유사도 정렬) |
✅ 요약: Dispider의 방법론 정리
구조 | Perception - Decision - Reaction 모듈 분리 및 비동기 처리 |
핵심 기술 | Scene-aware segmentation, TODO/ANS/SILENT 토큰, interleaved sequence |
장점 | 반응 중에도 영상 지속 처리, 응답 타이밍 정확도 향상, 불필요 응답 억제 가능 |
AI적 통찰 | Attention-based triggering + retrieval 기반 multi-hop reasoning으로 비디오 스트리밍 중 응답 지연 최소화 |
Dispider 논문의 결과, 결론, 그리고 마무리 메시지에 대해 체계적으로 정리해 드릴게요. Dispider는 기존 실시간 비디오 언어 모델(Video LLM)들의 한계를 극복하며, 스트리밍 영상 상호작용의 새로운 패러다임을 제시한 연구입니다.
🧪 1. 실험 결과 요약
Dispider는 총 3가지 평가 세팅에서 실험되었습니다:
✅ ① Streaming Video Understanding
실시간으로 영상이 재생되며, 사용자의 질문에 시기적절한 응답을 제공해야 하는 환경
- 벤치마크: StreamingBench, ETBench (Streaming setting)
- 비교 대상: VideoLLM-online, Flash-VStream 등
- 평가 항목:
- Temporal grounding
- Dense Video Captioning
- Step Localization
- Proactive Output 등
📌 결과 하이라이트:
- Proactive Output (PO): 기존 모델이 거의 실패한 과제에서 Dispider는 25.3점으로 압도
- Dense Video Captioning: 스트리밍 모드에서도 설명이 구체적이고 정확함
- Silent 기능 도입: 응답이 필요 없는 상황에서는 정확히 침묵 유지
🧠 의미:
기존 모델은 질문에 대해 무조건 응답하거나 지각이 중단되었으나, Dispider는 반응 타이밍, 내용 모두 정확함
✅ ② Conventional Video QA (Offline)
비디오 전체를 본 뒤 응답을 한 번 생성하는 전통적 환경
- 벤치마크:
- EgoSchema (긴 영상 이해)
- MLVU, VideoMME (멀티태스크 QA)
📌 결과 하이라이트:
- EgoSchema: 55.6점으로 최고 수준의 성능
- MLVU/VideoMME: 수십 분~수 시간짜리 영상도 정확히 요약하며 QA 가능
🧠 의미:
Dispider의 구조는 실시간 뿐 아니라 오프라인 QA에서도 경쟁력 있음
✅ ③ Ablation Study (설계요소 중요도 분석)
▶ Clip segmentation 방식:
- Scene-based 방식이 uniform (정적 클립 분할)보다 QA 정확도 및 타이밍 인식이 우수
▶ Special tokens:
Temporal Grounding | |
⟨TODO⟩ 없음 | 결정 지연됨 |
⟨ANS⟩ 없음 | 중복 응답 발생 |
⟨SILENT⟩ 없음 | 불필요 응답 증가 |
전부 사용 (Dispider) | 최고의 정밀도 달성 |
✅ 2. 결론 요약
📌 Dispider의 주요 기여:
- 지각(Perception), 결정(Decision), 반응(Reaction)의 완전한 분리
- 기존 LLM 구조의 병목을 해결
- Scene-aware streaming 처리 구조
- 장면 단위로 의미 있는 단편 처리
- 비동기 반응(Asynchronous Response)
- 영상 분석이 멈추지 않음
- 질문 시작 시점부터 응답 가능 (Proactive QA)
- "나중에 응답"이 아닌, **"적절할 때 응답"**을 실현
- 응답 생성 모듈이 판단 모듈을 방해하지 않음
- 기존 autoregressive 방식의 한계를 극복
🎬 3. 마무리 메시지 (논문 마지막 문단 요약)
Dispider는 실시간 비디오 LLM의 핵심 과제인 병렬성, 응답 타이밍, 효율성을 동시에 만족시킨 최초의 시스템입니다.
특히:
- 지각-결정-반응의 분리 구조 덕분에 지속적 감지 + 즉시 반응 가능
- 응답 생성이 지각 흐름을 방해하지 않기 때문에 실시간 상호작용에 이상적
- Proactive Video QA 환경에 최적화되어, 현실적인 사용자 인터페이스 구축 가능성 열어줌
💡 결론적으로, Dispider는 실시간 영상 언어 모델의 미래형 아키텍처의 시작점으로 볼 수 있으며,
다양한 멀티모달 상호작용 에이전트 개발의 토대를 마련했습니다.
필요하시면 결과를 테이블로 요약하거나 시각화된 정리도 도와드릴게요.
다음으로 이어서 보고 싶은 내용이 있을까요? (예: 구현 세부 구조, 활용 방안, 응용 분야 등)