告别数据噪声：UCSD DreamPRM双层优化提升多模态大模型数学推理能力

almosthuman2014 · 2025 年7 月 10 日 18:49

UCSD DreamPRM，创新双层优化，解决多模态大模型数据难题，登顶MathVista数学推理榜！

原文标题：告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650979130&idx=3&sn=457008c9dd46c12aea72b099822a6d49&

冷月清谈：

加州大学圣地亚哥分校（UCSD）团队研发的DreamPRM，凭借其创新方法，在数学推理权威测评榜MathVista上荣获第一。该方法旨在解决多模态大语言模型（MLLMs）在应用过程奖励模型（PRM）时面临的两大难题：多模态数据输入导致的训练与测试分布偏移，以及现有开源数据集中存在的质量不均衡问题。

DreamPRM的核心在于其独特的双层优化框架。下层优化阶段，系统在15个多样化训练域上训练PRM参数，并为每个数据域赋予动态权重。它通过蒙特卡洛监督信号，评估并优化每一步推理的质量。上层优化阶段则利用精心筛选的元数据集，评估PRM的泛化能力，并反向传播误差来更新各个数据域的权重。这一机制形成了一个自适应的正反馈循环，使得高信息密度的数据域获得更高的权重，从而有效抑制低质量数据的影响。

实验结果显示，DreamPRM在多项基准测试中均显著超越传统PRM方法，平均性能提升2-3%。值得一提的是，它甚至能让参数量较小的模型（如InternVL-2.5-8B-MPO）在多数基准上超越GPT-4v和Gemini-1.5等大型闭源模型。此外，DreamPRM展现出极强的通用性和可扩展性，能无缝集成到其他更强的MLLMs中，并随候选推理链数量增加持续提升性能。其学习到的数据域权重也明确揭示了不同数据集间的质量差异。它为多模态过程奖励模型的高效训练提供了一种新范式。

怜星夜思：

1、DreamPRM的核心是处理数据质量，那现实中如何高效获取高质量的多模态标注数据呢？毕竟手动标注成本很高，有没有什么自动化或者半自动化的方法能降低成本，同时保证数据质量？
2、DreamPRM主要在数学推理领域取得了突破，那它这种双层优化处理数据噪声和分布偏移的思路，能否有效迁移到其他多模态推理场景，比如医疗影像诊断或法律文件理解这类对准确性要求极高的领域？会有哪些额外的挑战？
3、DreamPRM通过动态调整数据域权重来优化训练，高信息密度的M3CoT获得高权重，AI2D等低权重。这种机制在提升性能的同时，会不会也潜在地引入或放大某些数据集中固有的偏见？比如，如果高权重的数据集某种程度上代表了特定的视角或知识背景，那么模型是否会变得‘偏科’或对某些类型的输入不够鲁棒？

原文内容

DreamPRM 由加州大学圣地亚哥分校的研究团队开发，在数学推理权威测评榜MathVista上获得了第一名。第一作者为博士生 Qi Cao，通讯作者为该校副教授 Pengtao Xie，团队其他成员还包括王睿一，Ruiyi Zhang 和 Sai Ashish Somayajula。

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

由于多模态输入（图像 + 文本）构成高维连续与离散信号的混合空间，训练数据与测试数据的分布偏移（Distribution Shift）远超纯文本场景，导致一般过程奖励模型泛化能力显著下降。

数据集质量失衡。现有开源多模态推理数据集存在大量低价值样本，如冗余模态与低难度问题。若直接用于训练，噪声数据会稀释过程奖励模型对关键推理步骤（如跨模态逻辑衔接）的监督信号。

针对上述问题，我们通过双层优化框架，将数据域权重（Domain Weights）作为可学习参数，动态抑制低质量数据域的影响，同时强化高信息密度数据域（如需要多步跨模态推理的 M3CoT 数据集）的贡献，实现数据质量与覆盖率的理想平衡。

论文标题：DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning
论文地址： https://arxiv.org/abs/2505.20241v2
代码地址： https://github.com/coder-qicao/DreamPRM

DreamPRM 方法在 MathVista 数学推理排行榜上荣登榜首。DreamPRM 以多层级优化为核心，作为一个与具体大语言模型无关的通用框架，可与任何多模态大语言模型无缝集成，显著提升其数学推理能力。

通过解决数据质量不均衡问题，DreamPRM 大幅提升了多模态过程奖励模型的性能。

DreamPRM 双层优化框架

技术核心：双层优化机制详解

DreamPRM 的核心创新在于将过程奖励模型的训练过程构建为一个可微分的双层优化问题，通过动态调整数据域权重来解决多模态推理中的分布偏移和质量失衡问题。该框架包含两个紧密耦合的优化阶段，共同驱动模型性能的提升。

在下层优化阶段，系统同时在 15 个多样化训练域上进行 PRM 参数训练。每个数据域（如科学问答、几何推理等）都被赋予一个动态权重以反映不同数据域对总体损失函数的贡献程度。具体实现中，系统会计算每个域的蒙特卡洛监督信号：

对于给定的中间推理步骤，通过多次采样补全结果并统计正确率，生成对当前步骤质量的概率估计。下层优化使用域加权的过程奖励模型输出与正确率监督的 MSE 损失更新过程奖励模型的参数：

在上层优化阶段，系统使用独立于下层优化训练资料的基于 MMMU 筛选的元数据集作为训练数据。这个精心构建的元数据集覆盖 30 个学科 183 个子领域，能够真实且全面地模拟 PRM 的推理场景以评估其泛化能力。上层优化阶段通过最小化聚合后的过程评价与最终答案准确与否的差异，反向传播误差并更新各个数据域的权重。

这个双层架构创造了一个自适应的正反馈循环：高质量的推理数据域（如需要复杂跨模态推理的 M3CoT）会逐渐获得更高的权重，而包含大量简单样本的域（如 AI2D）的权重则会下降。整个优化过程展现出良好的收敛特性，初始设为 1.0 的域权重会在训练中自然分化，最终形成与数据域信息密度高度相关的权重分布。

实验结果

主要性能表现

领域重加权优势显著：DreamPRM 在所有五项基准测试中稳定超越其他 PRM 方法，相比无数据选择的原始 PRM 提升 2-3%。其自动学习的域权重策略优于人工设计的启发式规则（如 s1-PRM 和 CaR-PRM），证明数据驱动的优化更有效。

小模型超越大模型：DreamPRM 使仅 80 亿参数的 InternVL-2.5-8B-MPO 模型在多数基准上表现优于大型闭源模型（如 GPT-4v 和 Gemini-1.5），展现了强大的推理能力提升。

细粒度评估带来提升：过程监督模型通过逐步评分机制超越其他测试时优化方法（如自洽性校验），验证了细粒度评估的关键作用。

规模扩展实验

DreamPRM 的性能随着候选推理链（CoT）数量的增加而稳定提升。如图所示，当 CoT 数量从 2 条增至 8 条时，DreamPRM 在全部五个基准测试上的准确率均持续提高。

DreamPRM 能无缝迁移到更强的多模态大模型上。如图所示，当应用于 GPT-4.1-mini 和 o4-mini 等更强模型时，在 MathVista 基准上的准确率均有提升，充分证明了 DreamPRM 的泛化能力。

学习到的数据域权重

最终学习到的数据域权重范围为 0.55 至 1.49，其中 M3CoT 和 FigureQA 获得最高权重（约 1.5），而 AI2D 和 IconQA 权重较低（小于 0.8）。这种权重分配模式有效提升了 PRM 性能，同时证实了不同数据集间存在显著的质量差异。

总结

DreamPRM 通过创新的双层优化机制，成功解决了多模态过程奖励模型训练中数据质量失衡和分布偏移的难题。双层优化框架自动学习各数据域的最优权重，使 DreamPRM 在五项基准测试中全面超越一般 PRM 方法，尤其在高难度数学推理任务上表现突出。

实验表明，该方法不仅能提升基础模型 4% 的平均性能，还可无缝迁移至 o4-mini 等新模型，且随着候选推理链数量增加持续改善结果。DreamPRM 的细粒度过程监督和可解释的权重分配，为多模态过程奖励模型的高效训练提供了新范式。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

VelvetFox904 · 2025 年7 月 11 日 18:05

哈哈哈，说到成本，我脑子里第一个想到的是‘众包’，给点小钱让大家帮忙打标。或者干脆找一堆实习生，好吃好喝供着，让他们边代码边打标（开玩笑啦）。不过话说回来，数据问题真是个‘老大难’，每次新模型出来，第一句话都是‘我需要海量高质量数据’。搞不好以后AI自己都能高质量打标了，那才是真正的‘降维打击’。

LuckyRabbit007 · 2025 年7 月 12 日 10:38

第三个问题直指核心，关于数据偏差与模型鲁棒性的考量。DreamPRM通过提升高信息密度数据集的权重来优化性能，这确实存在潜在风险。如果这些‘高质量’的数据集本身就包含某种未被察觉的偏见（例如，代表的是特定地域、文化或群体的知识），那么提高其权重就可能导致模型在处理其他类型输入时出现‘偏科’或性能下降。未来的工作需要引入更全面的公平性指标和偏差检测机制，确保优化性能的同时，模型的泛化能力和公平性不被牺牲。

SoaringEagle839 · 2025 年7 月 13 日 00:54

我觉得能行！你看它解决的两个核心问题：数据分布不均和数据质量参差不齐，这俩问题在哪个多模态领域不存在啊？无论是自动驾驶识别路况，还是机器人理解复杂指令，背后都是各种传感器数据和文本指令的混合。只要能把这些高维数据有效地映射到‘域’的概念里，让双层优化去学习哪个‘域’最有价值，那肯定能提升效果。关键就看怎么定义不同领域的‘高质量’和‘信息密度’了。

SilentWhale233 · 2025 年7 月 13 日 02:35

针对“DreamPRM能否迁移到其他多模态领域”这个问题，我认为理论上是可行的，因为其核心思想——通过双层优化动态加权数据域以处理分布偏移和数据噪声——是通用的。但在实际应用中，每个领域都有其独特的挑战。例如在医疗影像诊断中，数据稀缺、长尾分布、隐私保护以及对‘可解释性’的极高要求，都是数学推理不具备的。法律文档理解则可能面临更复杂的逻辑推理和更强的专业知识依赖，需要模型具备更深层次的语义理解能力，而不仅仅是识别‘关键信息’。所以，框架通用，但具体实现和优化策略仍需结合领域特性进行深入调整。

Pulse48v · 2025 年7 月 13 日 07:32

关于这个问题，其实除了手动标注，现在有很多研究方向在尝试解决这个问题。比如使用主动学习（Active Learning），让模型自己判断哪些样本标注了最有价值，这样可以少标很多‘废数据’。还有弱监督学习（Weak Supervision），利用一些启发式规则或现有知识库来自动生成标签，虽然会有噪声但成本极低，再配合像DreamPRM这种去噪机制就很有潜力。甚至合成数据（Synthetic Data）也是一个新兴方向，通过生成式模型创造数据对训练大模型非常有用，尤其是特定场景下数据稀缺时。

Haven14j · 2025 年7 月 13 日 08:35

楼主提的这个问题很关键。从数据生成角度看，有没有可能让AI模型自己‘学会’判断哪些数据是有价值的，甚至主动去‘创造’符合需求的高质量数据呢？这不就是DreamPRM这种机制的终极目标——让数据选择变得智能化吗？或许未来，数据标注的界限会越来越模糊，AI将成为数据生产链条上的核心一环。

Nexus38d · 2025 年7 月 13 日 11:33

如果把DreamPRM想象成一个“品控大师”，它当然可以去其他工厂上班。在医疗领域，它可以筛选出那些由资深专家标注、病理图像清晰、诊断结论明确的少数病例数据，给它们更高的权重，而忽略那些初级医生标注的、模糊的影像。在法律领域，它可以重点学习那些判例清晰、逻辑严谨、推导过程完整的案例，而不是堆砌大量重复或无关的法律条文。我相信这个思路是普适的，只是具体‘品控’的标准需要根据领域知识来定制。

Shadow53r · 2025 年7 月 16 日 17:08

这个问题很犀利！我觉得是有这个风险的。你想想，如果AI2D这类数据集因为‘简单’或‘噪声’被判为低权重，那模型对这类‘简单’、‘基础’但可能涵盖大量日常场景的理解能力会不会被弱化？它可能在解决难题上表现出色，但在处理一些基础识别或推理任务时反而犯错。这就像一个学生只做难题，基础题反而不稳。所以，需要在性能提升和泛化鲁棒性之间找到一个平衡点，而不是一味追求‘登顶’，同时也要对学到的权重进行持续的审计和监控。

Phantom95l · 2025 年7 月 17 日 11:28

嗯，这个点是AI发展中永恒的议题。‘高质量’和‘信息密度’本身就是一种主观判断或者说是基于某种目标（比如MathVista分数）的定义。如果某个数据集因为其‘简洁’或者‘直观’而被赋予低权重，是否意味着模型会‘忽视’这类直观的推理模式？就像我们常说要‘深入浅出’，太‘深’了可能就忽略了‘浅’的部分。或许需要更精细的权重调整策略，或者引入一种‘多样性’的权重，确保模型在追求高难度的同时，也能保持全面的理解能力，避免成为一个‘偏科’的天才。