ICCV 2025前瞻:UV-CoT如何重塑视觉思维链,告别高昂人工标注?

UV-CoT:无监督视觉思维链推理新框架。摆脱人工标注依赖,通过偏好优化实现图像级细粒度推理,显著提升视觉模型能力。

原文标题:ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链

原文作者:机器之心

冷月清谈:

在视觉理解领域,传统的思维链(CoT)推理方法存在一些局限性,如仅限于文本级别推理、图像处理粒度固定导致难以动态关注关键区域。此外,现有有监督训练策略对人工标注数据的过度依赖,使得成本高昂且泛化能力不足。

为应对这些挑战,近期ICCV 2025录用的一篇论文提出了一种创新的无监督视觉思维链推理框架——UV-CoT(Unsupervised Visual Chain-of-Thought)。该方法借鉴人类“关键区域→推理过程”的视觉理解模式,旨在实现模型的动态区域聚焦与细粒度推理。

UV-CoT的核心创新在于其无监督的数据生成与偏好优化机制。它通过一套自动化流程,首先利用目标模型为图像-问题对生成多样化的中间推理响应,这些响应包含关键的边界框信息和推理结果。随后,一个评估模型综合衡量所选区域得分及对后续回答的影响,对这些响应进行评分。基于这些评分,UV-CoT能够自动构建偏好对数据集,从而在无需人工标注的条件下,自我学习并优化推理路径。

此外,UV-CoT引入了改进的直接偏好优化算法——sDPO(Score-DPO)。sDPO通过引入偏好分数差异,量化偏好响应与非偏好响应之间的强度,有效增强了模型对关键图像区域的影响建模能力。该框架还采用迭代学习策略,通过动态更新偏好数据来适应模型输出分布,显著提升了训练的鲁棒性。

实验结果表明,UV-CoT在多个视觉基准测试上性能显著,不仅超越了有监督的思维链模型,还展现出更强的泛化能力,并能胜任高分辨率场景下的推理任务。
值得一提的是,即使在不依赖外部评估模型,仅通过自评估的情况下,UV-CoT也能生成高质量的边界框,其性能接近甚至超越更大的有监督模型。

总体而言,UV-CoT为高效、可扩展的多模态推理提供了一种新思路,成功摆脱了对昂贵人工标注的依赖,为未来无监督视觉理解研究奠定了坚实的基础。

怜星夜思:

1、UV-CoT这种无监督学习方法虽然解决了标注难题,但它在训练过程中,会不会存在“自娱自乐”的风险?比如模型生成的数据完全基于自身当前的理解,万一初期理解有偏差,会不会导致学习路径跑偏,甚至学到一些错误的因果关联?
2、文章里提到UV-CoT能动态聚焦关键区域,这听起来很酷。那在OCR(光学字符识别)或者其他需要极高精度定位的任务中,这种动态聚焦在处理复杂、密集排布的文字或图案时,会不会遇到精度瓶颈或者遗漏部分信息的情况?
3、UV-CoT用了“偏好优化”这个词,它听起来有点像强化学习里的人类反馈机制(RLHF),但这里是机器自己生成反馈。这种“自我偏好”的机制,未来有没有可能被滥用,或者被恶意数据投喂,导致模型产生一些意想不到的,甚至是有偏见的推理?

原文内容


本文第一作者是来自南洋理工大学的博士生赵克森,主要研究方向为 Reinforcement Learning in MLLMs. 该论文已被 ICCV 2025 录用。

 

随着文本领域中思维链(Chain-of-Thought,CoT)推理机制的成功应用,研究者开始将该方法引入视觉理解任务,以提升模型的推理能力和可解释性。


然而,现有模型局限于文本级别的思维链推理,且处理图像的粒度固定,难以根据语义线索动态关注图像中的关键区域。针对上述问题,本文提出 UV-CoT(Unsupervised Visual Chain-of-Thought),一种无监督视觉思维链推理新框架


该方法以「关键区域→推理过程」的人类视觉理解方式为参考(如下图所示),设计了无监督的数据生成与偏好优化机制,动态聚焦关键区域,实现细粒度推理,显著提升了模型的空间感知与图文推理能力。




  • 论文标题:Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

  • 论文链接:https://arxiv.org/abs/2504.18397

  • 项目地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html

  • 代码仓库:https://github.com/kesenzhao/UV-CoT

  • 开源模型: https://huggingface.co/papers/2504.18397


背景:有监督训练

需要高昂的人工成本


现有方法采用有监督微调(Supervised Fine-Tuning, SFT)策略训练模型,使用大量有标签的思维链推理数据,由人工标注关键区域及其推理过程。这类方法面临以下挑战:


(1)人工标注成本高,扩展性差:标注关键图像区域和推理路径需要耗费大量人力和时间,尤其在复杂视觉语义理解任务中,难以适应多任务或大规模场景。

(2)训练信号单一,泛化能力有限: SFT 仅利用人工标注的「正样本」(正确区域及回答),忽略其他潜在合理或不合理的区域与推理路径,导致模型在未知场景下的泛化能力不足。


UV-CoT 设计了一套自动化的偏好数据生成与评估流程,结合改进的偏好优化算法 Score-DPO(sDPO),在不依赖人工标注的前提下,通过偏好评分排序引导模型实现无监督图像级思维链学习(如下图所示)。



贡献一:无监督偏好数据生成与评估


UV-CoT 利用目标模型图片和评估模型图片,为图像 - 问题对生成多样化的中间推理响应,并通过偏好评分构建偏好数据集。主要步骤如算法 1 所述: 


  • 响应生成:在每个推理时间步 t,使用目标模型 图片 通过随机种子生成 n 个多样化的响应(包括边界框和中间推理结果)。

  • 响应评估:评估模型 图片 综合考虑所选区域的得分 图片  及对后续回答的影响 图片


  • 偏好对构建:从响应中随机选择 k 个偏好对(偏好和非偏好思维链),形成偏好数据集。

  • 响应选择:保留最高评分的响应链,用于下一时间步的推理。


    通过动态生成偏好数据,UV-CoT 减少了对高质量标注数据的依赖,能够在无监督数据条件下实现图像级思维链推理。



贡献二: sDPO 与迭代学习


UV-CoT 使用改进的直接偏好优化(DPO)算法 sDPO,通过引入偏好分数差异优化图像级思维链推理,并采用迭代学习策略动态适应模型输出分布。

sDPO 损失函数如下:



相比标准 DPO,sDPO 通过 图片 引入偏好分数的差异,量化偏好和非偏好响应之间的强度,提升对关键图像区域的影响建模。


迭代学习 (如算法 2):将数据集分为 m 个子集,迭代 m 次,每次使用当前模型图片生成偏好数据 D_i,并用 sDPO 优化得到下一模型 图片。 通过动态更新偏好数据,缓解训练数据与模型生成分布的差异,增强训练鲁棒性。



实验亮点


显著性能提升(表 1):在六大基准上,优于有监督的思维链模型 Visual-CoT-7B,远超目标模型 LLaVA-1.5-7B 和其他无思维链模型。


泛化能力强,易于拓展(表 2):在零样本设置下,UV-CoT 平均提升 2.5%,添加额外无标注数据后,平均提升达 5.1%。 


胜任高分辨率场景(表 3):在 V* Bench 上,UV-CoT 平均得分 0.402,平均提升 5.5%,尤其在 OCR 任务中提升 8.4%。



不依赖评估模型,边界框生成质量高(表 5):UV-CoT 通过自评估(目标模型作为评估器)表现仍远超目标模型 LLaVA-1.5-7B(+4.8%),接近 12B 模型 OmniLMM-12B(-0.2%)。将 UV-CoT 生成的边界框应用于 OmniLMM-12B 和 LLaVA-1.5-7B 辅助推理,性能分别提升 7.3% 和 4.7%。



偏好数据与思维链推理可视化




结语


UV-CoT 提出了一种创新的无监督视觉思维链推理框架,通过自动化的数据生成与对比评估机制,成功摆脱了对人工标注的依赖,实现了关键图像区域的自动识别与推理优化。该方法为高效、可扩展的多模态推理提供了新思路,为未来无监督视觉理解研究奠定了坚实基础。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


哎呀,你这是在说AI版的“近朱者赤,近墨者黑”啊!模型它自己天天跟自己“玩”,如果人类一开始没给它设置好“三观”,或者有人故意塞给它一些“坏”数据,比如教它认图的时候,故意把所有特定肤色的人都标成“坏人”,那它学着学着不就变成一个有偏见、甚至会“说谎”的模型了嘛!所以,AI再聪明,也得有人类这把“道德的缰绳”牵着,不然真怕它“跑偏”啊!

是啊,听起来很科幻,但想想咱们平时用手机拍个发票,要是光线不好或者字太小,OCR也经常“抓瞎”。AI再厉害,也得看“原材料”质量。它能主动聚焦是没错,可如果满屏幕都是密密麻麻的小字,就像给一个近视眼戴了放大镜,虽然能看清局部了,但整体的布局和上下文可能还是会混淆。对付这种“螺蛳壳里做道场”的活儿,光靠动态聚焦恐怕还不够,得有更强的“细节辨别能力”才行。

哈哈,你说的太形象了!这就好比一个人长时间只看自己写的日记,然后用这些日记来指导人生,那不就容易活在自己的世界里,跟现实脱节了嘛?模型也是,如果它一直“左脚踩右脚”地往上爬,万一刚开始没站稳,后面岂不是越跑越偏?所以,有时候还是要有点“外部监督”,哪怕是偶尔的“点拨”,才能让模型学得更“正”!

你这个问题问得太专业了!这确实是无监督学习,尤其是像UV-CoT这样自举式的学习模式需要面对的核心挑战。在学术界,这种现象常被称为“模型塌陷”或“模式崩溃”,意思是如果评估和生成过程不能有效与外部真实世界对齐,模型就有可能沉迷于自身生成的“假象”,进而无法学到有用的信息。缓解方案通常会结合少量高质量的先验知识注入,比如用少量人工标注去初始化模型,或者在每次迭代中引入一些多样性正则项,确保探索足够多的可能性,避免过早陷入局部最优解。迭代学习在这里有一定帮助,但评估模型的鲁棒性是关键。

你提到了一个非常实际且深入的点。虽然动态聚焦能力显著,但在OCR这类对像素级精度要求极高的任务中,仍有可能遇到挑战。原因在于,当文字或图案极度密集、相互重叠时,即使是人类视觉系统也需要仔细辨认。AI模型的动态聚焦,本质上是基于学习到的特征表示来判断“重要性”。如果底层特征提取器在面对这些极端复杂场景时,本身就难以区分细微的差异,或者模型在进行CoT推理时未能充分考虑到局部与整体的关联,那么确实可能出现精度瓶颈,比如将相邻字符误认为是单个字符,或者遗漏了背景中不那么显眼的细节信息。未来的研究可能需要结合更精细的多尺度特征融合或者拓扑学上的结构感知。

嗯,很有洞察力。这种“自娱自乐”的风险是真实存在的。它类似于强化学习中的“自举误差积累”,如果模型的初始策略或评估机制不够健壮,或者训练数据中存在某种隐性偏见,那么在迭代过程中,这些错误或偏见可能会被反复强化,导致模型学到次优甚至错误的推理模式。在实际应用时,即使是无监督方法,可能也需要在模型部署前进行严格的测试和人工校准,以确保其输出符合预期,避免产生“聪明反被聪明误”的情况。

这个问题很敏锐,这种担忧是完全合理的。本质上,机器的“自我偏好”机制是为了优化其在特定任务上的表现。但是,如果这个“偏好”的生成过程不够健壮或者容易被操纵,就可能出现问题。例如,在某些场景下,模型为了达到某个评估指标(例如“准确率”),可能会无意中牺牲掉“公平性”或“多样性”,从而导致输出结果产生偏见。至于恶意数据投喂,这是一个广义的“数据投毒”问题,攻击者可以精心构造看似无害但实则带有误导性的数据,让模型在自我训练中学习到错误的或偏激的逻辑。因此,对于AI模型的安全性和伦理治理,需要综合采用技术(如鲁棒性训练、可解释性AI)和管理(如法规、伦理审查)等多方面措施。

这个问题很有意思!理论上,动态聚焦能力能够帮助模型筛选掉不相关区域,从而更精准地处理目标信息。但在实际的极高精度定位任务中,比如工业级的OCR或者缺陷检测,挑战往往在于图像质量差、文字变形、背景复杂等因素。UV-CoT的优势在于它能够自己学会“看”哪里,而这套“学习”的准确度,很大程度上取决于其内部“偏好”机制的设计是否足够精巧,以及模型对微弱信号的捕获能力。如果它在决策过程中对一些低对比度或模糊的细节权重不够,确实可能导致漏检。这是一个在性能和鲁棒性之间寻找平衡的问题。

你这个问题非常切中要害,涉及到了AI伦理和安全的核心议题。这种“自我偏好”机制,虽然目的是为了让模型自主学习并优化,但确实存在被滥用或产生有害偏见的潜在风险。如果用于训练的初始数据本身就带有某种社会偏见(例如性别歧视、种族刻板印象),或者有人恶意设计输入,通过“对抗性攻击”的方式,引导模型生成并“偏好”错误的、甚至是有害的推理路径和结果,那么这些偏见或错误就会在模型的迭代学习中被放大和固化。这凸显了在设计和部署这类系统时,必须高度重视模型训练数据的多样性与代表性、模型的透明度与可解释性,以及建立有效的安全防御机制的重要性,比如对抗性训练和实时异常行为检测。