LLaDA-V:纯扩散多模态大模型,多模态理解新突破

人大&蚂蚁集团联合打造 LLaDA-V,纯扩散多模态模型,数据可扩展性强,多项基准超越自回归模型,为 MLLM 发展开辟新路径。

原文标题:舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

原文作者:机器之心

冷月清谈:

中国人民大学与蚂蚁集团联合推出了LLaDA-V,一个集成了视觉指令微调的纯扩散多模态大语言模型。该模型以LLaDA为基础,通过引入视觉编码器和MLP连接器实现多模态对齐,并在训练和采样阶段均采用离散扩散机制,突破了当前多模态方法依赖自回归模型的局限。实验表明,LLaDA-V在数据可扩展性方面表现卓越,并在多个多模态任务中超越了基于LLaMA3的自回归模型,甚至在某些基准上缩小了与Qwen2-VL的差距。核心方法是将视觉指令微调框架与LLaDA的掩码扩散机制相结合,通过双向注意力机制和特定的训练目标,实现了高效的多模态对话。LLaDA-V的成功不仅为MLLM的发展开辟了新路径,也挑战了多模态智能必须依赖自回归模型的传统观念,预示着扩散模型将在多模态AI领域扮演更重要的角色。

怜星夜思:

1、LLaDA-V 在多模态任务中超越 LLaMA3-V,是否意味着扩散模型在处理多模态信息时,比自回归模型更具优势?这种优势体现在哪些方面?
2、LLaDA-V 采用双向注意力机制,这在消融实验中被证明略优于对话因果注意力机制。为什么双向注意力更适合多模态对话?在哪些场景下,这种优势会更加明显?
3、LLaDA-V 的成功是否预示着未来多模态大模型的发展方向将逐步转向扩散模型?扩散模型在多模态领域还面临哪些挑战?

原文内容


本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 


此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM)。这项工作标志着对当前以自回归为主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。


近年来,多模态大语言模型(MLLMs)在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而,现有的大多数方法依赖自回归模型。虽然有研究尝试将扩散模型引入 MLLMs,但往往采用混合架构(自回归 + 扩散)或者受限于语言建模能力,导致性能不佳。


继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言模型能否在多模态任务中也达到与自回归模型相当的性能?LLaDA-V 正是对这一问题的有力回答。


研究团队将 LLaDA 作为语言基座,通过引入视觉编码器(SigLIP 2)和 MLP 连接器,将视觉特征投影到语言嵌入空间,实现了有效的多模态对齐。LLaDA-V 在训练和采样阶段均采用离散扩散机制,摆脱了自回归范式。



  • 论文标题:LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

  • 论文链接:https://arxiv.org/abs/2505.16933

  • 项目地址:https://ml-gsai.github.io/LLaDA-V-demo/

  • 代码仓库:https://github.com/ML-GSAI/LLaDA-V


团队预计近期开源训练推理代码以及 LLaDA-V 权重。


性能亮点

数据可扩展性强,多项基准表现优异


大规模的实验评估揭示了 LLaDA-V 的多个引人注目的特性:


1. 卓越的数据可扩展性与竞争力。团队将 LLaDA-V 与使用 LLaMA3-8B 作为语言基座、但其他部分完全相同的自回归基线 LLaMA3-V 进行了对比。


结果显示,LLaDA-V 展现出更强的数据可扩展性,特别是在多学科知识(如 MMMU)基准上。令人印象深刻的是,尽管 LLaDA-8B 在纯文本任务上略逊于 LLaMA3-8B,但 LLaDA-V 在 11 个 多模态任务中超越了 LLaMA3-V。这表明扩散架构在多模态任务上面具备一定的优势。




2. 纯扩散与混合架构中的 SOTA:与现有的混合自回归 - 扩散模型(如 MetaMorph, Show-o)和纯扩散模型相比,LLaDA-V 在多模态理解任务上达到了当前最佳(SOTA)性能。这证明了基于强大语言扩散模型的 MLLM 架构的有效性。



3. 缩小与顶尖自回归 MLLM 的差距:尽管 LLaDA 的语言能力明显弱于 Qwen2-7B,但 LLaDA-V 在某些基准(如 MMStar)上显著缩小了与强大的 Qwen2-VL 的性能差距,达到了相当的水平(60.1 vs. 60.7)。这进一步印证了扩散模型在多模态领域的潜力。


下图是 LLaDA-V 同用户进行交流的场景。



LLaDA-V 准确描述出了一幅宁静而富有层次感的瑞士阿尔卑斯山景:一条绿色小路蜿蜒延伸,一位行人沿路行走,远处是山谷中的白色教堂和被薄雾环绕的巍峨群山,蓝天白云为画面增添了宁静氛围,整体构图清晰,意境优美。


核心方法


LLaDA-V 的核心在于将视觉指令微调框架与 LLaDA 的掩码扩散机制相结合。下图展示了 LLaDA-V 的训练和推理过程:



架构: 采用经典的「视觉编码器 + MLP 投影器 + 语言模型」架构。视觉编码器(SigLIP 2)提取图像特征,MLP 投影器将其映射到 LLaDA 的嵌入空间。LLaDA 语言塔则负责处理融合后的多模态输入并生成回复。特别地,LLaDA-V 采用了双向注意力机制,允许模型在预测时全面理解对话上下文,这在消融实验中被证明略优于对话因果注意力机制。


训练目标: LLaDA-V 扩展了 LLaDA 的训练目标,以支持多轮多模态对话。其核心思想是在训练时保持图像特征和用户提示(Prompt),仅对模型的回复(Response)进行随机掩码,训练目标仅对被掩码部分计算交叉熵损失。



推理过程: LLaDA-V 的生成过程并非自回归式的逐词预测,而是通过扩散模型的反向去噪过程。从一个完全被掩码的回复开始,模型在多个步骤中迭代地预测被掩码的词元,逐步恢复出完整的回复。研究采用了 LLaDA 的低置信度重掩码策略,优先保留高置信度的预测,提升了生成质量。


总结与展望


LLaDA-V 成功地将视觉指令微调与掩码扩散模型相结合,证明了扩散模型不仅能在语言任务上与自回归模型一较高下,在多模态理解领域同样展现出强大的竞争力和独特的优势,尤其是在数据可扩展性方面。


这项工作不仅为 MLLM 的发展开辟了一条新的技术路径,也挑战了多模态智能必须依赖自回归模型的传统观念。随着语言扩散模型的不断发展,我们有理由相信,基于扩散的 MLLM 将在未来扮演更重要的角色,进一步推动多模态 AI 的边界。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

个人觉得,现在就断言扩散模型比自回归模型更有优势还为时过早。LLaDA-V的成功可能只是个例,需要更多不同架构的模型进行验证。而且,自回归模型也在不断发展,未来谁更强还不好说。

我更关注扩散模型的可控性问题。自回归模型可以通过调整prompt来控制生成结果,但扩散模型在这方面可能存在难度。如果无法有效控制生成过程,可能会限制其在某些领域的应用。

我认为双向注意力更适合需要全局信息的任务,比如理解图像中的物体之间的关系,或者推断对话中的隐含信息。在需要结合上下文进行推理的场景下,双向注意力的优势会更加明显。

会不会是因为多模态信息天然就是双向的?文本可以关联图像,图像也可以反过来理解文本。单向的因果注意力可能限制了信息的流动。

感觉优势可能在于扩散模型能更好地处理噪声数据,从而提高模型的泛化能力。多模态数据本身就比较复杂,噪声也多,扩散模型可能更适合这种场景。

扩散模型在多模态领域可能面临的挑战包括:计算成本高、生成速度慢、对硬件要求高等。此外,如何更好地融合不同模态的信息也是一个关键问题。

我觉得现在说转向还太早,毕竟自回归模型在多模态领域也取得了很大进展。但是,LLaDA-V 的成功确实给扩散模型带来了新的希望,未来可能会出现更多基于扩散模型的多模态应用。

双向注意力允许模型在预测时全面理解对话上下文,这在多模态对话中尤为重要,因为图像信息往往与整个对话历史相关。

我倾向于认为这可能与扩散模型在训练过程中对全局信息的利用有关。自回归模型是逐个生成token,可能更关注局部信息,而扩散模型需要考虑整个图像和文本的关联性,因此在多模态融合方面具有优势。