ACL 2026|Laser 用动态窗口和概率叠加,让多模态大模型告别冗长思维链

Laser 用动态窗口和概率叠加重塑多模态隐式推理,显著减少推理 Token。

原文标题:ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

原文作者:机器之心

冷月清谈:

这篇文章介绍了由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院和哈佛大学联合提出的多模态隐式推理方法 Laser。它针对传统思维链在多模态任务中带来的视觉细节丢失、语言先验干扰和推理 Token 过多等问题,提出了一种不依赖显式长文本推理的新范式。Laser 的核心是动态窗口对齐学习(DWAL):模型不再强制预测下一个词,而是在隐空间中与一段动态收缩的语义窗口对齐,使隐状态保持“概率叠加”而非过早坍缩到单一概念。为了稳定训练,研究还设计了自修正叠加机制和熵正则化干预,在模型不确定时注入硬标签,在掌握上下文时保持软叠加探索。团队还构建了约 27 万样本的 ScanPath 数据集,用于模拟“先看整体、再看局部”的视觉认知轨迹。实验显示,Laser 在 6 个视觉基准上刷新隐式推理 SOTA,平均性能提升 5.03%,推理 Token 消耗降低 97% 以上,同时保留了较好的可解释性。

怜星夜思:

1、Laser 这种“先看整体、再看细节”的隐式推理方式,会不会比传统思维链更适合多模态任务?
2、文章里提到的“概率叠加”和传统的“预测下一个词”,本质差别大吗?
3、ScanPath 数据集这种“认知轨迹”数据,会不会比普通图文标注更有价值?
4、Laser 省了 97% 以上的推理 token,这种效率提升会不会真正改变多模态大模型的落地方式?

原文内容


本文的共同第一作者王禹博,张钧天分别为复旦大学和中国人民大学高瓴人工智能学院的硕士研究生,主要研究方向为多模态大模型和 Reasoning 等,预计 2027 年 6 月毕业,如有多模态大模型 / Reasoning 相关的优质发展机会,欢迎大家联系: yubowang25@m.fudan.edu.cn , zhangjuntian@ruc.edu.cn。通讯作者是刘雨涵,目前在 MBZUAI 担任研究员,研究方向为多模态大模型,Agent 和 Misinformation 等。 


近年来,随着思维链(Chain-of-Thought)技术的普及,多模态大模型(VLMs)的多步推理能力得到了显著提升。然而,这种依赖显式文本的推理路径正面临着一个严重的 “信息带宽瓶颈”:在离散的文本分词过程中,连续且丰富的视觉细节往往会被大量丢失。


为了解决这一痛点,由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队,提出了一种名为 Laser 的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感,引入了 “Forest-before-Trees” 的认知机制,通过动态窗口对齐学习(DWAL),首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。


研究实验结果显示,Laser 不仅在 6 个主流基准测试中刷新了隐式推理的 SOTA 纪录,更以极致的效率将推理 Token 消耗大幅降低了 97% 以上。这一工作为构建更原生、更高效的多模态智能提供了全新的视角。目前,该论文已被 ACL 2026  Main Conference 正式接收。


  • 论文标题: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

  • 论文链接: https://arxiv.org/pdf/2601.06803

  • 代码仓库: https://github.com/ybb6/laser

  • 数据集链接:https://huggingface.co/datasets/wybb/Laser-ScanPath



1. 传统隐式推理的困境:过早的语义坍缩


如前文所述,纯文本的思维链在多模态大模型中不仅面临着视觉细节丢失的 “信息带宽瓶颈”,还存在另一个隐患:语言先验(Language Priors)的干扰。在生成冗长文本推理的过程中,模型往往会过度依赖固有的语言逻辑,从而产生幻觉或忽视了图像本身传递的视觉信息。


为了绕开显式文本带来的这些局限,学界近期开始探索将推理过程转移到高维空间的 “隐式推理(Latent Space Reasoning)”。但现有的隐式推理方法大多依然沿用传统大语言模型的自回归框架。它们在隐空间中强迫模型进行严格的逐点映射 —— 即在每一步推理中,都要求模型去精准预测紧接着的下一个具体概念或视觉特征。


研究团队指出,这种逐点映射与人类真实的视觉感知规律背道而驰。人类在观察复杂图像时,往往遵循 “Forest-before-Trees” 的层级性原则,即先建立对整体画面的宏观语义把控,再逐步聚焦于局部的特定细节。如果强迫模型在尚未完全掌握全局上下文之时,就 “过早地发生语义坍缩”,将其隐状态死死锁定在某个具体的局部概念上,就会引发严重的 “管中窥豹” 效应,使模型难以捕捉更复杂的视觉逻辑关系。


然而,打破这种逐点约束也面临着巨大的技术鸿沟:如果放任隐状态保持模糊的未坍缩状态,在缺乏外部强监督信号的情况下,模型极易迷失方向,导致隐空间发散为毫无意义的高熵噪声。如何在探索全局的概率叠加与精准聚焦的答案收敛之间找到平衡,成为了阻碍隐式推理发展的一大难题,而这也正是 Laser 范式要攻克的核心目标。



2. Laser 核心机制:动态窗口对齐与隐式叠加


基于上述洞察,研究团队提出了 Laser(Latent Superposition for Effective Visual Reasoning)。其核心创新在于放弃逐点预测,转而采用动态窗口对齐学习(Dynamic Windowed Alignment Learning, DWAL)


  • 动态语义窗口: Laser 不再只预测紧接着的下一个词,而是让当前的隐状态与一个包含未来潜在语义的动态有效窗口进行对齐。

  • 认知流的过渡: 随着推理过程的推进,语义窗口会自然缩小,从而强制模型完成从全局探索到局部精准定位的渐进式过渡。这种机制使得隐状态能够维持一种 “概率叠加” 状态,在编码高层全局语义的同时,将具体细节保留在潜在状态中。

  • 自修正与熵正则化干预: 为了在缺乏外部强监督的情况下稳定这种无约束的学习过程,团队设计了自修正叠加机制(Self-Refined Superposition)来构建稳定的软目标。同时,研究引入了熵正则化干预(Entropy-Regularized Intervention),当模型不确定性较高时动态注入硬性引导,而在模型掌握全局上下文时恢复软叠加,形成一种隐式的课程学习。



3. 数据基石:ScanPath 认知轨迹


为了支撑 Laser 的隐式对齐训练,研究团队摒弃了依赖显式边界框(Bounding Boxes)等视觉 COT 的强监督手段,选择通过隐式潜空间对齐来桥接感知与语言。为此研究团队专门构建了包含约 27 万样本的 ScanPath 数据集,为动态窗口对齐(DWAL)提供完美契合 “Forest-before-Trees” 规律的训练载体。团队将 GPT-4o 设定为 “视觉认知引擎” ,基于全局优先假设(Global Precedence Hypothesis)对合成数据施加了极其严格的生成约束:


  • 严格的 “全局到局部” 扫描逻辑:要求序列必须从最宽泛的全局锚点起步,逐步将焦点缩小到相关主体,并最终落脚于解答查询所需的关键视觉证据上。

  • 演绎轨迹而非静态描述:这一特定的结构确保了数据呈现的是动态的视觉演绎轨迹,而不是对图像表面元素的静态描述。

  • 原子化与去语法化:为了提炼出高密度的 “语义锚点”,生成内容被要求必须是原子级别的特定视觉概念,并强制剔除所有的语法修饰词(如 is, the, a 等停用词)。


在这些严苛的要求下,ScanPath 成功将视觉推理过程解构成了一系列离散的语义节点,并在人工评估中取得了 91.5% 的逻辑有效率。这份认知扫描路径数据,为后续模型在隐空间中维持概率叠加提供了最核心的监督目标。


4. 具体方法


动态语义窗口(Dynamic Semantic Windows)


在标准自回归框架下,优化目标通常是强迫隐状态 图片 去最小化预测下一个具体词元 图片 的负对数似然。而 Laser 为每一步推理 t 定义了一个动态语义窗口 图片


图片


这里的优化目标不再是单一的 “点”,而是让隐状态 图片 尽可能覆盖窗口 图片 内的所有有效语义信息。随着推理步数 t 的增加,这个窗口会自然缩小,直到只包含最终答案相关的细节,从而在学习范式上完美契合了人类 “Forest-before-Trees” 的视觉处理规律。


自修正的隐式叠加(Self-Refined Superposition)


如何在动态窗口 图片 内指导模型的学习?在缺乏外部软标签提供监督的情况下,团队巧妙地引入了自修正(Self-Refined)机制,让模型基于自身对有效语义分布的估计,来提炼构建出一个稳定的软目标。


具体而言,模型会提取自身对窗口 图片 内词元的原始预测,并通过带有温度系数 τ 的 Softmax 函数,将其转化为一个平滑的参考叠加分布 图片



在传统的自回归训练中,损失函数强制要求模型在这一步必须 100% 预测唯一的下一个词,这正是导致隐状态发生 “过早语义坍缩” 的罪魁祸首。


而在 Laser 中,这个由模型自身提炼出的概率分布 图片 就是核心损失函数(DWAL)的目标分布。


将平滑铺开的 图片 作为 Target 放入交叉熵损失中进行梯度回传,等于在数学根基上给隐状态 图片 下达了全新的指令:“你不能只锁定下一个词,你必须同时兼顾、并包含窗口内所有未来潜在 token 的特征”。正是这一步以 图片 为基准的自修正对齐,真正打破了强制预测单一词元的硬性约束,在隐空间中构建出了 “概率叠加” 的认知状态。


熵正则化干预(Entropy-Regularized Intervention)


单纯依赖软标签叠加容易导致模型陷入高熵的均匀分布,失去语义焦点。为此,团队引入了熵正则化干预机制。首先,计算参考分布的归一化熵 图片 来衡量模型当前的不确定性:



接着,系统会根据不确定性构建一个混合目标 图片,它能在软叠加和严格的下一个词元对齐之间动态切换:



这里隐藏着一个隐式课程学习(Implicit Curriculum):当 图片大于设定的阈值 η 时(说明模型很迷茫),系统会注入硬标签 图片 并赋予权重 α 进行强制纠偏;当模型展现出对全局上下文的良好把控时,则放手让其在叠加态中自由探索。


总体优化目标(Optimization Objective)


整合以上机制,对于隐式推理链,DWAL 损失负责将隐式轨迹与动态语义窗口对齐:



而对于最终的显式答案生成阶段,则采用标准的交叉熵损失 图片。整个训练目标即为两者的加权和,使模型在探索全局视觉语义与利用精确局部语义之间取得绝佳平衡:


图片


5. 实验结果:以极低算力刷新 SOTA,兼具可解释性


研究团队在 6 个极具挑战性的视觉基准测试上对 Laser 进行了全面评估。结果表明,Laser 兼顾显式思维链的推理深度和隐式推理的高效推理速度。



卓越的推理性能


Laser 在隐式推理方法中确立了新的最优性能(SOTA)。与隐式推理基线模型相比,Laser 的平均性能提升了 5.03%。特别是在测试视觉错觉和幻觉的 HallusionBench 以及感知基准 BLINK 上,Laser 分别取得了 11.36% 和 6.21% 的涨幅。


高效的推理效率



尤为值得一提的是,Laser 在取得性能突破的同时,展现出了极高的运行效率。通过将推理过程从离散文本空间转移到紧凑的隐空间,Laser 成功将推理 Token 的消耗减少了 97% 以上。在 BLINK 基准测试中,其平均 Token 消耗量锐减至仅 6.0 个,远远低于显式推理方法。


破局隐式推理的 “黑盒化”



与传统隐式推理模型中难以解读的连续向量不同,Laser 成功保留了高度的可解释性。得益于其训练过程中维护语义叠加态的窗口对齐机制,Laser 的隐状态可以直接通过语言模型的词表头进行投影解码,从而让研究人员能够直观地可视化出大模型的内部 “认知轨迹”。


6. 消融实验:探索 Laser 的内在机制


为了验证 Laser 各个核心组件的实际贡献,研究团队在论文中进行了详尽的消融实验。结果表明,Laser 的良好表现主要归功于隐式对齐框架的设计,以及对干预机制的精准把控。


6.1 探究 Laser 为何有效:概率叠加与动态窗口


团队首先对动态窗口对齐学习(DWAL)的核心要素概率叠加和动态窗口进行了消融实验。



  • 概率叠加防止语义坍缩: 当移除 DWAL 目标,使模型退化为标准的 “预测下一个词” 模式时,模型在细粒度感知基准(如 MMVP 和 BLINK)上的性能出现了显著下降。这表明,在推理过程中维持概率叠加态,对于防止模型过早丢失视觉细节、避免语义坍缩至关重要。

  • 动态窗口构建认知层级: 进一步的实验发现,如果取消动态窗口的缩减机制(即使用固定窗口),模型在复杂逻辑推理任务(如 MMStar)上的表现会明显受损。这印证了动态窗口是实现 “Forest-before-Trees” 机制的关键:通过逐步缩小语义范围,强制模型先捕捉全局上下文,再聚焦局部细节。


6.2 熵干预的控制:触发干预的黄金比例


在隐空间中,模型什么时候该自由探索,什么时候该被强制纠偏?这就需要通过熵正则化干预机制中的阈值 η 来控制。实验对不同的熵阈值进行了对比,发现 η=0.6 是最佳的平衡点,此时强制干预的触发比例约为 10%。


  • 这个比例意味着,系统大约每 10 个 Token 会进行一次硬性纠偏。如果门槛设定过低(例如 η=0.5,触发比例升至 18%,过于频繁的干预会像传统的强监督一样,限制模型在隐空间中的探索自由,导致逻辑推理(如 MMStar)性能下降。

  • 反之,如果门槛设定过高(例如 η=0.8 或 1.0,触发比例低于 2.5%),系统几乎不介入,模型在遇到困惑时就缺乏必要的引导信号,从而影响整体训练效果。


恰好在维持认知灵活性与确保视觉准确性之间找到了最优解。


结语


Laser 的提出,为大语言模型的视觉推理指明了一条兼顾 “高效” 与 “深思” 的新道路。研究团队期待这项工作能够鼓励多模态大模型的研究范式,从传统的显式文本预测,走向更符合直觉的连续隐式视觉推理。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

可以理解成,传统方法是“现在就给我标准答案”,Laser 是“先把可能性都摆桌上,再慢慢筛”。前者适合考试,后者更像做题前先审题。图片理解里,审题其实很关键。

1 个赞

从工程角度看,这类数据肯定更贵、更难做,但也更像“高配燃料”。普通标注喂出来的是识别器,认知轨迹喂出来的才更像会思考的系统。问题就是,谁来批量造这种数据,钱包先扛不扛得住。

3 个赞

我觉得它的价值在于把视觉推理拆成了阶段性的认知节点,而不是一口气给最终答案。这种数据如果做得好,能帮助模型学会更像人一样的注意力迁移,而不只是认图识物。

3 个赞

97% 这个数字太容易让人眼前一亮了,像在说“从吃自助变成吃轻食”。但别忘了,轻食再健康,得先好吃才行。要是模型效率高了但回答质量掉了,那也只是把问题从“慢”变成“快错”。

3 个赞

从方法论上看是有道理的。多模态任务里,图像信息本来就是连续的,硬拆成一串离散 token,很多细节天然会被压缩掉。Laser 这种做法更像是保留中间态的认知过程,先把全局语义兜住,再逐步收紧,和人类看图的方式比较接近。

1 个赞