MMaDA:首个多模态扩散大语言模型,兼顾强大推理与高度可控性

首个多模态扩散大语言模型MMaDA发布,统一架构实现文本推理、多模态理解和图像生成,性能超越现有模型。

原文标题:比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

原文作者:机器之心

冷月清谈:

普林斯顿大学、字节Seed等团队联合发布了MMaDA,一种基于扩散架构的多模态基础模型。该模型通过统一扩散架构、混合长链思维微调和统一策略梯度优化三大技术突破,实现了文本推理、多模态理解和图像生成能力的统一建模,并在多个任务中取得了领先成果。MMaDA在文本推理、多模态理解和图像生成方面均表现出色,并在跨任务协同和任务泛化方面展现出优势,为多模态大模型的发展提供了新的方向。

怜星夜思:

1、MMaDA模型中使用扩散模型作为文本建模的基座,这与传统的自回归模型有什么本质区别?你认为扩散模型在处理文本时有哪些优势和劣势?
2、MMaDA模型在图像生成中引入了对世界知识的考察,这有什么实际意义?在你的理解中,如何让AI模型更好地掌握和利用世界知识?
3、MMaDA模型提出了混合长链思维微调(Mixed Long-CoT Finetuning)策略,你认为这种策略对提升模型的推理能力有什么帮助?在实际应用中,如何有效地构建和筛选高质量的推理轨迹?

原文内容


近年来,大型语言模型(LLM)在多模态任务中展现出强大潜力,但现有模型在架构统一性与后训练(Post-Training)方法上仍面临显著挑战。


传统多模态大模型多基于自回归(Autoregressive)架构,其文本与图像生成过程的分离导致跨模态协同效率低下,且在后训练阶段难以有效优化复杂推理任务。


DeepMind 近期推出的 Gemini Diffusion 首次将扩散模型(Diffusion Model)作为文本建模基座,在通用推理与生成任务中取得突破性表现,验证了扩散模型在文本建模领域的潜力。


在此背景下,普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。



  • 论文标题:MMaDA: Multimodal Large Diffusion Language Models

  • 论文链接:https://arxiv.org/abs/2505.15809

  • 代码仓库:https://github.com/Gen-Verse/MMaDA

  • 模型地址:https://huggingface.co/Gen-Verse/MMaDA-8B-Base

  • Demo 地址:https://huggingface.co/spaces/Gen-Verse/MMaDA


团队已经开源训练、推理、MMaDA-8B-Base 权重和线上 Demo,后续还将开源 MMaDA-8B-MixCoT 和 MMaDA-8B-Max 权重。


性能表现与跨任务协同



MMaDA 在三大任务中实现 SOTA 性能:


  • 文本推理:MMLU 准确率 68.4%,超越 LLaMA-3-8B、Qwen2-7B、LLaDA-8B;目前所有的统一理解与生成模型都不支持文本的强推理,MMaDA 首次在多模态任务中保持了文本的建模能力,实现真正意义上的统一基座模型。

  • 多模态理解:在 POPE(86.1 vs 85.9)、VQAv2(76.7 vs 78.5)等基准上与 LLaVA、Qwen-VL 等专用模型持平;

  • 图像生成:CLIP Score 达 32.46,较 SDXL、Janus 等模型提升显著,在文化知识生成任务(WISE)中准确率提升 56%。图像生成任务里,首次对比了统一多模态大模型在含有世界知识(World Knowledge)的文生图任务上的表现,如下图所示:


跨任务协同效应


如下图所示,在混合训练阶段(130K-200K 步),文本推理与图像生成指标同步上升。例如,模型在解决复杂几何问题和生成图像的语义准确性上显著提高,证明了以扩散模型作为统一架构的多任务协同效应。



任务泛化

扩散模型的一个显著优势在于其无需额外微调即可泛化到补全(Inpainting)与外推(Extrapolation)任务上。MMaDA 支持三类跨模态的补全任务:


  • 文本补全:预测文本序列中的缺失片段。
  • 视觉问答补全:基于不完整图文输入生成完整答案。
  • 图像补全:根据局部视觉提示重建完整图像。


这些案例充分展现了统一扩散架构在复杂生成与推理任务中的灵活性与泛化能力。


关键技术解析

训练与测试框架如下:



  • 统一扩散架构(Unified Diffusion Architecture)

MMaDA 的核心架构突破在于将文本与图像的生成过程统一到扩散框架中:

    • 数据表征:文本使用 LLaMA 的 Tokenizer,图像采用 MAGVIT-v2 的 Tokenizer,将 512×512 图像转化为 1024 个离散 Token;
    • 扩散目标:定义统一掩码预测损失函数,通过随机掩码同步优化文本与图像的语义恢复能力。例如,在预训练阶段,模型需根据部分掩码的 Token 序列预测缺失内容,无论输入是文本段落还是图像块。


这种设计消除了传统混合架构(如 AR+Diffusion)的复杂性,使模型在底层实现跨模态信息交互。


  • 混合长链思维微调(Mixed Long-CoT Finetuning)

为解决复杂任务中的冷启动问题,MMaDA 提出跨模态混合 CoT 的微调策略:

    • 统一推理格式:定义特殊标记结构 <think>推理过程</think>,强制模型在生成答案前输出跨模态推理步骤。例如,在处理几何问题时,模型需先解析图形关系,再进行数值计算;
    • 数据增强:利用 LLM/VLM 生成高质量推理轨迹,并通过验证器筛选逻辑严谨的样本。文本数学推理能力的提升可直接改善图像生成的事实一致性(如正确生成「北极最大陆生食肉动物——北极熊」)。

  • 统一策略梯度优化(UniGRPO 算法)

针对扩散模型强化学习的三大难点——局部掩码依赖、掩码比例敏感性与非自回归特性,MMaDA 提出创新解决方案:

    • 结构化噪声策略:对答案部分随机采样掩码比例(如 30%-70%),保留问题部分完整。这种设计模拟多步去噪过程,避免之前方法(如 d1)的全掩码导致的单步预测偏差;


    • 多样化奖励建模:针对不同任务设计复合奖励函数。例如在图像生成中,CLIP Reward 衡量图文对齐度,Image Reward 反映人类审美偏好,二者以 0.1 系数加权融合。


如下图所示,UniGRPO 在 GSM8K 训练中使奖励值稳定上升,相较基线方法收敛速度提升 40%。这得益于 UniGRPO 对扩散模型多步生成特性的充分适配。



主要作者介绍

杨灵:普林斯顿大学 Research Fellow,北京大学博士,研究方向为大语言模型、扩散模型和强化学习。

田野:北京大学智能学院博士生,研究方向为扩散模型、统一模型及强化学习。

沈科:字节跳动 Seed 大模型团队的 AI 研究员,研究方向为大语言模型预训练和统一学习范式。

童云海:北京大学智能学院教授,研究领域涵盖多模态大模型、图像/视频的生成与编辑。

王梦迪:现任普林斯顿大学电子与计算机工程系终身教授,并创立并担任普林斯顿大学「AI for Accelerated Invention」中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

扩散模型和自回归模型在文本建模上的本质区别在于生成方式。自回归模型是逐个token生成,依赖于之前的输出;而扩散模型则是通过逐步去噪的方式生成,可以并行处理。扩散模型的优势在于能更好地捕捉全局信息,生成质量更高,劣势在于计算成本较高,生成速度较慢。个人觉得,扩散模型更适合对生成质量要求高的场景,例如艺术创作。

别忘了prompt engineering!好的prompt能够引导模型更好地利用已有的知识。例如,在描述北极熊时,可以加上“生活在寒冷地区”等限定词,帮助模型更好地理解场景。当然,这需要我们对模型的能力有深入的了解,才能写出有效的prompt。总而言之,世界知识很重要,prompt使用更重要!

从信息论的角度看,自回归模型本质上是马尔可夫过程,每一步的生成都依赖于前一步的状态,容易产生误差累积。扩散模型则像是从噪声中提炼信息,更像是一个逆向的物理过程,对噪声有一定的鲁棒性。但问题是,文本这种离散信号真的适合用连续的扩散模型来建模吗?这是值得思考的。

楼上说的有道理,扩散模型在图像生成上效果拔群,但在文本上还是个新尝试。我觉得优势在于,扩散模型可以更好地控制生成过程,例如通过调整噪声水平来控制生成文本的风格。劣势也很明显,文本是离散的,扩散模型是连续的,中间需要一个转换过程,这可能会引入额外的误差。

可以考虑使用强化学习的方法来优化推理轨迹。例如,可以定义一个奖励函数,奖励能够正确完成推理的模型,惩罚错误的模型。通过不断地试错和学习,模型可以逐渐学会生成更有效的推理轨迹。但是,这种方法需要大量的计算资源,而且奖励函数的定义也需要仔细考虑。。。

长链思维 (CoT) 微调策略能显著提升模型的推理能力,这已经有很多研究证明了。它就像给模型提供了一步步的思考过程,让模型学会像人一样逐步解决问题。混合长链思维,意味着引入不同模态的信息来辅助推理,比如图像可以帮助理解几何问题。至于构建和筛选高质量的推理轨迹,我建议可以采用主动学习的方法,让模型自己生成推理过程,然后人工筛选,再用筛选后的数据训练模型,形成一个正反馈循环。

赞同楼上的观点。我觉得还可以考虑引入符号主义的方法,将世界知识表示成符号,让模型能够像人一样进行推理。当然,这需要解决符号主义和连接主义之间的融合问题,是个很大的挑战。不过,这也是AGI(通用人工智能)的必经之路吧。

引入世界知识太重要了!以前的AI生成的图,看起来很漂亮,但仔细一看,很多细节是错误的,比如北极熊出现在沙漠里。让AI模型掌握世界知识,才能生成更真实、更符合逻辑的图像。至于如何让AI更好地掌握,我觉得可以从两个方面入手:一是增加训练数据,让模型见过更多的世界;二是引入知识图谱等外部知识库,让模型能够主动学习。

我觉得可以借鉴代码调试的思路。在推理过程中,可以设置一些检查点,检查模型的中间状态是否正确。如果发现错误,可以回溯到之前的步骤,重新生成推理过程。这种方法可以有效地避免误差累积,提高推理的准确性。有点像debug ai了,哈哈