ICLR 2025:无需训练,提升多模态大模型对微小视觉细节的感知力

提出一种无需训练的“可视化干预”方法ViCrop,提升多模态大模型对微小视觉细节的感知能力,在细节敏感型数据集上显著提高回答准确率。

原文标题:?ICLR 2025 | 无需训练!大幅增强多模态大模型对微小视觉细节的感知

原文作者:数据派THU

冷月清谈:

本文介绍了一种无需额外训练的“可视化干预”方法(ViCrop),旨在提升多模态大语言模型(MLLM)对微小视觉信息的感知能力。该方法通过挖掘和利用模型自身的内部知识(注意力与梯度信息),设计了三种自动裁剪方案,动态地产生更“聚焦”的视图,从而帮助模型在回答视觉问题时忽略干扰并放大关键细节。实验结果表明,ViCrop在细节敏感型数据集上能够显著提高模型的回答准确率,且几乎不会对主要包含大目标的通用数据集造成性能下降。这种方法为解决视觉细节缺失和小目标识别不佳的问题提供了一条灵活、高效且通用的新思路。

怜星夜思:

1、ViCrop方法中,为什么强调“无需额外训练”? 这种特性在实际应用中有什么优势?
2、文章提到ViCrop在处理超高分辨率图像时采用了“两阶段”方案。 为什么需要这样做? 这种方案解决了什么问题?
3、文章中提到了多种ViCrop变体,如Relative Attention ViCrop、Gradient-Weighted Attention ViCrop等。 它们分别侧重于利用模型的哪些内部信息? 在实际应用中,应该如何选择合适的变体?

原文内容

本文约2800字,建议阅读9分钟
这些训练无关的可视化干预手段充分利用了 MLLM 内在的多模态表征能力。


一、简介
在本研究中,我们针对多模态大语言模型(MLLM)在辨识微小视觉信息时的局限性,提出了一套无需额外训练的“可视化干预”方法,巧妙地挖掘并利用模型自身的内部知识(注意力与梯度信息),从而提升模型对小尺度目标的感知能力。
具体而言,我们设计了三种自动裁剪方案,分别根据模型内在的注意力分布、梯度对目标位置的敏感性,以及组合利用这两类内部信号来确定最具辨识度的局部区域。在推理过程中,这些方法会围绕模型潜在的关注焦点动态地产生更“聚焦”的视图,帮助模型在回答视觉问题时忽略干扰并放大关键细节。
有趣的是,这些裁剪策略并不依赖针对性的数据标注或额外训练:它们仅依据模型原生的注意力机制和梯度反馈,即可更精准地定位微小目标所在。如此一来,我们不仅保留了通用型 MLLM 在海量数据中学习到的知识,还能在关键任务(如医学图像分析、安全监控等)中显著减少漏检小目标带来的风险。
我们在多项视觉问答基准上对该方法进行评估,结果表明,裁剪后的图像能够让 MLLM 在区分细微目标时表现更为准确和稳定,且这一增益在对小尺度目标尤其敏感的数据集上最为显著。
总而言之,这些训练无关的可视化干预手段充分利用了 MLLM 内在的多模态表征能力,为解决视觉细节缺失和小目标识别不佳的问题提供了一条灵活、高效且通用的新思路。
论文链接:
https://arxiv.org/abs/2502.17422
代码链接:
https://github.com/saccharomycetes/mllms_know

二、MLLMs 对大小物体感知的敏感度
在这一部分,我们主要探究多模态大语言模型在面对不同大小的视觉目标时,是否会对小尺度信息“视而不见”。
我们选取了 TextVQA 数据集作为切入点:该数据集中每个问题都有对应的真实边界框,标注了提供正确文字答案的具体位置。我们依据边界框占整张图片的相对面积,将验证集划分为“小”“中”“大”三类,观察模型在不同大小视觉概念上的识别准确度。
直觉上,如果模型的感知能力与目标大小无关,它在这三种场景中的表现应该相差无几。
但实验结果却显示,无论是零样本推理模型(如 BLIP-2、InstructBLIP)还是经过 TextVQA 训练的模型(如 LLaVA-1.5、Qwen-VL),它们对小目标的准确率都显著低于大目标,就连最新商业模型 GPT-4o 也不能幸免,足见其对小尺度视觉细节依旧存在偏差。
为了进一步确认“小尺度”是否真的是模型无法识别小目标的因果原因,我们还进行了额外的“干预实验”:在输入原始图像的同时,我们把包含正确答案位置的最小正方形区域截取出来、放大到模型可接受的分辨率,再与原始图像共同输入到模型中。这样一来,我们就能直接测量“专注裁剪”对识别效果的影响。
结果显示,特别是在小目标场景下,模型准确率都有了相当明显的提升;而在大目标场景下,这种改进相对较弱。这不仅印证了小视觉概念的存在确实会“压制”模型的识别能力,也表明简单而直接的图像裁剪方法就能在很大程度上缓解这一问题。
通过这些实验,我们得以更深入地了解 MLLM 的视觉感知局限,为后续改进小目标感知提供了思路。
▲ 表1: 在 TextVQA 任务中,MLLM 的准确率对视觉目标的大小极其敏感:当答案区域在图像中的相对面积逐渐缩小(从右到左),未裁剪的模型表现明显下降;而采用人工裁剪(human-CROP)后,小目标的识别准确率可显著提升。

三、重要发现:即使回答错误,多模态大模型的注意力位置仍然精准
在本部分,我们探讨多模态大语言模型在视觉问答时,是否能准确找到图像中的关键区域。小目标识别不佳通常有两种可能:要么模型无法顺利定位到小目标,要么虽然知道位置却无法精确识别细节。我们观察到,模型即便回答错误,依然常常关注到目标周边,说明它们确实“知道”该往哪儿看,但缺乏对局部细节的充分感知能力。
为量化这种情况,我们从 MLLM 的跨注意力机制入手:提取“答案到图像 token” 的注意力,再结合“图像 token 到图像区域”的注意力,生成对各图像区域的综合关注度。
考虑到模型也会对某些“注册”或全局信息产生注意,我们提出“相对注意力”概念,将回答问题时的注意力值与模型对同张图片进行“通用描述”时的注意力值进行对比,以突出与答题真正相关的部分。
在 TextVQA 数据集上的实验证明,无论模型回答是否正确,其对包含答案的边界框都维持较高注意力比率。这提示 MLLM 定位能力并非主要瓶颈,真正的挑战在于它们对小尺度特征的精细识别能力。
▲ 图1:在本图中,我们展示了 MLLM 在不同网络层的注意力比率(基于 TextVQA 的平均值,带 95% 置信区间)。该比率用于衡量模型对真实答案边界框的关注程度。结果显示,在多数网络层中,该比率都大于 1,意味着即便模型未能正确回答,也能聚焦到图像中与答案相关的关键区域。

四、VICROP方法
在前面章节的研究中,我们发现 MLLM 对于小尺度目标的“聚焦”能力并不差,真正的问题在于其难以清晰辨别小目标的细节。因此,本节提出一种无需额外训练的图像裁剪方法(ViCrop),以充分利用模型内部的注意力和梯度线索,实现自动化的“放大镜”式细节解析。
具体来说,我们先让模型处理一张图像与问题,提取其关键的关注区域。具体来讲,Relative Attention ViCrop(rel-att)方法通过获取模型对“回答问题”与“通用描述”这两种场景的注意力差异,锁定与问题语义最相关的图像部位。
Gradient-Weighted Attention ViCrop(grad-att)则借助模型输出分布对注意力进行梯度加权,以筛除无关的注意力热点;Input Gradient ViCrop(pure-grad)更直接地利用模型对原始图像像素的梯度,找出视觉中最能影响决策的细节区域。
这些方法均会输出裁剪后的“放大图”,并与原图一同输入模型,从而让 MLLM 对关键部位做更精细的分析。具体细节请见论文以及代码。
为将这些注意力或梯度图自动转化为可用裁剪框,我们借鉴目标检测的思路,通过多种不同大小的滑窗在整幅图像上移动,寻找在“高关注度”区域上得分最高的位置;再结合基于邻域变化的启发式策略,选出最能平衡“大而全”和“小而聚焦”的最佳窗口。
针对超高分辨率图像(如大于 1K 的场景),我们采用“两阶段”方案:先将大图分块计算关注图,再拼接回原图后选取裁剪区域。
最后,我们将裁剪后的“局部放大版”与原图共同输入模型。这样,一方面可充分保留全局信息,另一方面也能让模型更好地“看清”微小细节。
▲ 图2: ViCrop 帮助 MLLM 纠正错误的示例(青色边界框显示 ViCrop 裁剪的区域)

我们将所提出的 ViCrop 方法应用于两款开源 SOTA 多模态大语言模型(InstructBLIP 和 LLaVA-1.5),并在 7 个数据集上验证了它们在“看清”小目标时的改进成效。
结果显示,ViCrop 无需任何额外训练,就能显著提高模型在细节敏感型数据集(例如 TextVQA、V*)上的回答准确率;同时,对主要包含大目标的通用数据集(如 GQA、AOKVQA、VQAv2),也几乎不会造成性能下降。
特别值得关注的是,LLaVA-1.5 在裁剪后收获的提升幅度更明显,或与其针对视觉 token 进行更深入的模型调优有关。总体来看,ViCrop 在推理阶段提供了一个简单而高效的“小目标放大镜”方案,为解决 MLLM 在小尺度识别任务中的局限带来了新的思路。
▲ 表2:ViCrop 应用于两个主流 MLLM,在不同 benchmark 下的表现


编辑:黄继彦



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

从技术角度分析,直接处理超高分辨率图像容易导致内存溢出和计算瓶颈。分块处理可以将图像分解成更小的块,分别进行计算,降低了内存占用和计算复杂度。拼接回原图后选取裁剪区域,可以保证裁剪区域的完整性和连贯性。这种方案类似于分治法的思想,将一个大问题分解成若干个小问题,分别解决后再合并结果。

两阶段方案是为了解决超高分辨率图像处理时计算量过大的问题。如果直接对整张高分辨率图像进行计算,需要的计算资源会非常多,效率也很低。所以,先将大图分块计算关注图,降低了单次计算的复杂度,再拼接回原图后选取裁剪区域,保证了裁剪的准确性。总的来说,两阶段方案在计算效率和裁剪精度之间找到了一个平衡点。

从学术角度来看,强调“无需额外训练”意味着该方法更注重挖掘和利用模型已有的知识和能力,而非通过学习新的参数来解决问题。这种思路更加优雅和高效。在实际应用中,无需额外训练的模型更易于部署和维护,也更容易适应新的任务和场景,因为它们不需要重新收集和标注数据,也不需要调整模型结构和参数。此外,这种方法也更容易推广到不同的模型和数据集上,具有更强的通用性和可扩展性。

从理论上讲,不同的ViCrop变体反映了对模型内部机制的不同理解和利用方式。Relative Attention ViCrop试图捕捉模型对问题意图的理解,Gradient-Weighted Attention ViCrop试图衡量注意力对最终结果的影响程度,Input Gradient ViCrop则试图找出对模型决策起关键作用的像素。在实际应用中,可以通过交叉验证等方法,在不同的数据集上测试不同变体的性能,选择表现最好的变体。此外,还可以考虑将不同的变体组合起来,利用它们各自的优势。

这个问题很有深度!Relative Attention ViCrop侧重于利用模型在回答问题和通用描述时的注意力差异,找出与问题语义最相关的区域。Gradient-Weighted Attention ViCrop则利用模型输出分布对注意力进行梯度加权,过滤掉无关的注意力热点。Input Gradient ViCrop更直接,它关注的是原始图像像素对模型决策的影响。选择哪个变体,我觉得要看具体的任务和数据。如果任务对语义理解要求较高,可以选择Relative Attention ViCrop;如果需要更精确的定位,可以选择Gradient-Weighted Attention ViCrop或Input Gradient ViCrop。

我觉得这个两阶段方案有点像“农村包围城市”的意思。先在局部地区(图像块)找到关键信息,然后再整合全局信息,最终确定裁剪区域。这种方案避免了在一开始就被全局的复杂信息淹没,更容易找到真正重要的细节。

我觉得“无需额外训练”最大的好处是省钱!训练大模型烧钱大家都知道,如果能避免这笔开销,那简直是太棒了。而且,这种方法也更环保,毕竟训练模型需要消耗大量的电力。从另一个角度来说,它也更灵活。不需要重新训练模型,意味着可以随时调整裁剪策略,根据不同的任务和数据选择最适合的方法。

我觉得选择哪个变体有点像“看菜下饭”。如果模型本身对语义理解比较弱,那就用Relative Attention ViCrop来加强一下。如果模型容易被一些无关的细节干扰,那就用Gradient-Weighted Attention ViCrop或者Input Gradient ViCrop来过滤掉这些干扰。总之,要根据模型的特点和任务的需求来选择最合适的变体。

这个问题问得好!强调“无需额外训练”是因为这样可以避免重新训练模型所需的大量时间和计算资源。想象一下,如果每次遇到小目标识别问题都要重新训练一个模型,那成本也太高了。这种方法最大的优势在于它可以直接应用到现有的模型上,像给模型加了一个“外挂”一样,即插即用,非常方便。尤其是在资源有限或者需要快速部署的场景下,这种方法的优势就更加明显了。