深度剖析 MLLMs 幻觉:为何长推理链反成症结?

MLLMs 长推理链反增幻觉,因视觉注意力减弱与语言主导。

原文标题:更长的推理链反而导致更多幻觉,MLLMs 幻觉解法仅「抄作业」还不够?摘要

原文作者:机器之心

冷月清谈:

文章指出,多模态大模型 (MLLMs) 在处理更长的推理链时,反而会产生更多幻觉,这与大语言模型 (LLMs) 有所不同。研究发现,推理链越长,模型对视觉输入的关注越少,转而更依赖语言先验知识。MLLMs 的幻觉表现为跨模态的语义失配,即对图像理解偏差甚至虚构视觉细节。
分析认为,这主要源于现有 MLLMs 的架构和训练机制问题。结构上,模型采用“视觉编码器 + 接口模块 + 语言模型”组合,视觉特征被压缩,易导致“注意力漂移”,使模型更关注语言而非图像。加之语言模型规模远超视觉编码器,加剧了语言模态的主导地位。训练机制沿用“下一个 token 预测”,难以捕捉视觉空间结构与跨模态一致性,缺乏对整句语义合理性的约束。

怜星夜思:

1、“抄作业”不够,那 MLLM 幻觉问题还有啥新解法?
2、长推理链反而更“幻”?MLLM 复杂任务路在何方?
3、MLLM 的幻觉,对“多模态智能”评估有啥新挑战?

原文内容

机器之心PRO · 会员通讯 Week 27

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1. 更长的推理链反而导致更多幻觉,MLLMs 幻觉解法仅「抄作业」还不够?

更长的推理链为何反而使 MLLMs 产生更加严重的幻觉问题?相比于大语言模型的事实性错误和常识违背,MLLMs 在视觉任务上 「多」出了哪些幻觉?以往针对 LLMs 幻觉的方法,MLLMs 能否直接"抄作业"?为何视觉编码器的 「进化」 对解决 MLLMs 幻觉问题极为重要?RAG 方法对提升多模态生成的可信度是否依然奏效?

2. 「2025 AI 实战手册」,年收入破亿的 AI 公司都在干什么?
ICONIQ 投的 AI 公司发展如何了?赚到钱的 AI 公司都在干什么?AI 原生公司的优势都有哪些?年收入破亿的公司如何开发 AI 产品?以后的 AI 产品会怎么收费?AI 公司对人才的需求在如何变化?AI 公司也不爱用 AI?

本期完整版通讯含 2 项专题解读 + 27 项 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 7 项,国外方面 12 项。
本期通讯总计 23559 字,可免费试读至 8% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  更长的推理链反而导致更多幻觉,MLLMs 幻觉解法仅「抄作业」还不够?

引言近日,斯坦福大学、UCSB 及 USSC 的学者通过注意力分析发现,与 LLMs 不同的是,随着思维链(CoT)生成内容的变长,更长的推理链反而使多模态大模型(MLLMs)产生更强的幻觉。

更长的推理链为何反而使 MLLMs 产生更加严重的幻觉问题?MLLMs 的幻觉来源与 LLMs 有何不同?

1、测试时计算使得多模态大型语言模型能够生成扩展的推理链,然而斯坦福大学、UCSB 及 USSC 的学者观察到这种改进的推理能力常常伴随着幻觉的增加。[1-1]

① 随着生成内容的变长,模型倾向于偏离图像内容,更多地依赖语言先验。

② 通过注意力分析,研究团队发现更长的推理链会减少对视觉输入的关注,从而导致幻觉。

2、相较于传统大语言模型(LLMs)中对事实性错误的讨论,多模态模型(MLLMs)幻觉不仅涉及语言生成的偏差,更体现为跨模态的语义失配,即模型「看图说话」时对图像理解出现偏差,生成内容偏离甚至虚构了视觉细节。

① 在大语言模型中,幻觉主要被定义为输出内容与现实事实不符,例如虚构人物、伪造引用、逻辑冲突等。其根源多来自语言建模的泛化机制和训练语料中的偏误。


表:LLMs 和 MLLMs 幻觉对照表[1-1]-[1-18]

3、为何这些幻觉在多模态大模型中频发?其主要原因在于当前主流的多模态架构在结构设计和训练机制上均存在潜在失衡。

4、一方面,多模态大模型通常采用「视觉编码器 + 接口模块 + 语言模型」的模块化结构,主流接口包括 Cross-Attention(交叉注意力)机制和视觉投影(Projection Layer)机制。[1-2]

① Cross-Attention(交叉注意力)机制如 MiniGPT-4 中的 Q-Former,使用可学习的查询向量来捕捉图像特征。

② 视觉投影(Projection Layer)机制,如 LLaVA 中通过线性映射或 MLP 将视觉特征压缩映射至语言空间。

5、尽管这些接口在一定程度上实现了模态间的信息传递,但由于视觉特征被压缩为有限的 token,模型极易发生「注意力漂移」(Attention Drift)现象。

① 即在生成过程中,模型的自注意力机制更倾向于关注已有的语言 token,而非图像输入。

② 这种「语言主导」现象,在视觉挑战性较高(遮挡、模糊、罕见物体)或语言先验极强的场景中较为普遍。

6、另一方面,语言模型规模远大于视觉编码器(通常为 CLIP),加剧了语言模态对最终输出的支配倾向。

① 模型在「香蕉是什么颜色」这类问题上,可能更依赖其内部知识(即黄色)而非图像中的实际颜色(红色),造成输出事实与图像直接冲突。

7、在训练机制上,目前多模态仍沿用大语言模型中的「下一个 token 预测」作为核心训练损失(Autoregressive Loss),这种 token 级别监督方式难以捕捉视觉内容的空间结构与跨模态一致性,尤其缺乏对整句语义合理性或跨模态对齐的约束。

针对“抄作业”不够这个问题,我认为除了模型架构的优化,比如更精细的跨模态注意力机制设计,让视觉编码器和语言模型达到更好的平衡之外,还可以从数据增强和训练范式上入手。例如,引入更精细的跨模态对齐数据集,不仅仅是图片-文本对,还应该有更高粒度的区域-文本、物体-属性级的标注来辅助模型理解。训练上可以考虑引入对比学习或因果干预的思路,让模型主动区分“看到了什么”和“猜测了什么”,或者对视觉信息进行更强的监督,比如引入一些图像描述生成中常用的评价指标作为辅助损失,强化图像真实性与文本输出的关联。

要解决“抄作业”不够的问题,我觉得可以学学老中医,望闻问切。让 MLLMs 不仅“看”,还要“闻”(感知更多图像特征),“问”(跟图像互动,比如问自己图片里有没有XXX),最后才是“切”(生成描述)。还可以引入人类反馈,就像PPO那种,让人类专家来纠正那些“离谱”的看图说话,让模型知道哪些信息是“真”的。这样才能让它少“幻视”。

咱们可以把这像小孩儿学说话一样来理解。小孩儿刚开始学,可能指着小狗叫“猫”,这是简单的“记错了”。MLLM 这种“看图说瞎话”,就像是小孩子指着自己画的鬼画符,一本正经地给你讲一个根本不存在的故事。它不是记错了,它是“创造”了。所以评估 MLLM,不能光看它说得多么头头是道,还得看它是不是在“实事求是”。我们得给它弄一套像“真理检测仪”一样的东西,一旦它说的在图里找不到对应,就给它扣分。总不能让它自由发挥成了“幻想家”吧!

MLLMs 的跨模态语义失配幻觉,确实给“多模态智能”的评估带来了根本性的挑战。这不再仅仅是“事实性正确”的问题,更是“意图理解”与“世界模型构建”的深层问题。评估标准需要从单一的文本生成质量或图像识别准确率,扩展到更复杂的跨模态一致性、上下文理解以及情境感知能力。未来可能需要引入例如计数、定位、属性推理等多维度、精细化的评估指标,甚至结合人类认知科学,设计更贴近人类视觉与语言协同理解的测试集。这关乎我们如何定义机器是否真正“看到了”并“理解了”这个世界。

我觉得这就像一个人写小说,写得越长越容易前后矛盾,甚至把前面设定好的角色描绘得面目全非。MLLM 也是这样,一波操作猛如虎,结果一看图,嗯?驴唇不对马嘴。可能以后就不是追求“一言贯穿始终”了,而是像写剧本一样,分成好几幕,每个“幕”完了,就跟原图对一对,确定没跑偏,再进行下一“幕”的推理。或者,干脆让它们在推理过程中,每一步都像在跟用户“确认”一下:“我理解是这样,对吗?” 然后再继续。这样既能保证复杂性,又能避免胡说八道。

我觉得最直观的挑战就是用户体验。以前一个 LLM 胡说八道,我们觉得它“编故事”。现在 MLLMs 胡说八道,特别是“看图说话”说错了,这简直就是“指鹿为马”了。比如它把图里穿红衣服的人说成穿绿衣服的,或者本来只有三只猫它非说有四只,这种“视觉上的错觉”更让人恼火。所以,评估上除了文本的流畅度、逻辑性,还得加一条“你到底有没有看对图!”。可能需要更多那种“金标准”答案,不仅要文字对,还得指向图里的具体区域,才能算对。

对于 “长推理链反而更‘幻’” 这个问题,这确实是当前 MLLMs 面临的一个挑战。这可能暗示了 MLLMs 在进行多步推理时,其内部的视觉表征衰减或者语言先验的权重过大。解决之道并非一味避免长推理链,而是要提升其在推理过程中的“视觉锚定”能力。可以考虑引入外部工具(如图像分析工具、知识图谱)辅助推理,让 MLLM 在每一步推理中都能回溯或重新确认视觉事实。或者,在模型设计上增加一个“事实检查”模块,能在长推理链的每一步生成内容后,与原始视觉信息进行比对,若出现偏差则进行修正或回滚。这种策略能够保证推理的连贯性与信息的准确性。

这听起来有点像“能力越大,责任越大,幻觉也越大”的意思?哈哈。如果长推理真的更容易幻觉,那可能说明 MLLMs 目前的基础能力还没强到能驾驭复杂推理的地步。短期内,我们可能得接受在某些复杂多模态任务上,需要更强的用户干预,比如 CoT 不完全由模型生成,而是人机协同完成,或者在关键节点加入人工校验。长期来看,肯定还是得从模型底层改进,否则真的无法大规模应用。

哈哈,我看啊,与其让它“抄作业”,不如直接给它配个“监工”!就像一个迷你视觉大模型,专门盯着它说的每句话,是不是真的在图里有体现。要是它敢瞎说,立马提醒它:“喂!图里没那玩意儿!重新组织语言!”。或者干脆给模型多加几个“眼睛”,不光看整体,还看细节,看局部,看背景,多角度交叉验证,看它还怎么“幻”!