https://arxiv.org/abs/2503.09573
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
Diffusion language models offer unique benefits over autoregressive models due to their potential for parallelized generation and controllability, yet they lag in likelihood modeling and are limited to fixed-length generation. In this work, we introduce a
arxiv.org
시간 나는대로 천천히 리뷰 작성 시작하겠습니다..
SOCIAL MEDIA TITLE TAG
SOCIAL MEDIA DESCRIPTION TAG TAG
m-arriola.com
기존 Diffususion모델은 한꺼번에 전체적인 내용을 출력하다보니 의존성 문제가 분명 있을 수 밖에 없어보였습니다.
2025.02.19 - [인공지능/논문 리뷰 or 진행] - LLM Diffusion 논문 리뷰 - Large Language Diffusion Models
LLM Diffusion 논문 리뷰 - Large Language Diffusion Models
https://arxiv.org/abs/2502.09992 Large Language Diffusion ModelsAutoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch unde
yoonschallenge.tistory.com
그렇기에 이 논문을 보고 정리를 안 할 수가 없었네요
기존 모델은 고정길이 문제점, 캐싱이 되지 않은 문제, 출력 자체도 그리 좋아 보이지 않았기에 좀 더 명확한 Diffusion모델이 필요했습니다.
그렇기에 이번 Block Diffusion이 나왔고 명확한 성능 차이를 보여줍니다.
Autoregression: ✅ High quality ✅ Arbitrary-length ✅ KV caching ❌ Not parallelizable
Diffusion: ❌ Lower quality ❌ Fixed-length ❌ No KV caching ✅ Parallelizable
Block Diffusion: ✅ High quality ✅ Arbitrary-length ✅ KV caching ✅ Parallelizable