
https://arxiv.org/abs/2502.09992 Large Language Diffusion ModelsAutoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaarxiv.org 이 식이 기존 언어 모델이 예측을 진행하는 순서입니다. 이 식은 기존 생성형 모델이 사용하던 식으로 Diffusion의 식..