Vision-DeepResearch:多模态深度研究新突破,小参数模型也能达到SOTA

港中文等机构提出Vision-DeepResearch,一种多模态深度研究范式,小参数模型在多项基准测试中达到SOTA,并构建了更真实的评测基准VDR-Bench。

原文标题:多模态DeepResearch,成了!

原文作者:机器之心

冷月清谈:

本文介绍了 Vision-DeepResearch,一种新的多模态深度研究范式。该方法通过多尺度视觉检索、文本深度研究接力以及端到端内化,解决了现有方法在真实网页环境中命中率低、推理深度和检索广度不足的问题。Vision-DeepResearch 通过高质量长轨迹合成、冷启动 SFT 和在线高效异步 RL 等技术,将研究能力内化到模型中,使其能够进行多轮、多实体、多尺度的视觉与文本搜索。实验结果表明,Vision-DeepResearch 在多个基准测试中取得了领先或相当的性能,证明了长视野交互在多模态深度研究中的关键作用。此外,作者还构建了一个更贴近现实的评测基准 VDR-Bench,用于更真实地评估多模态深度研究系统的性能。

怜星夜思:

1、Vision-DeepResearch 强调在噪声环境中进行多轮试错和验证,这与人类的研究方式非常相似。那么,你认为在实际应用中,这种范式可能遇到哪些挑战?如何克服这些挑战?
2、VDR-Bench 强调必须通过局部实体发现+迭代裁剪检索+文本多跳推理才能可靠作答,这反映了当前多模态研究评测的什么问题?你认为未来多模态研究的评测应该关注哪些方面?
3、Vision-DeepResearch 通过数据合成和强化学习来提升模型能力,你认为这种方法有哪些优势和局限性?未来是否可以结合其他技术来进一步提升多模态 DeepResearch 的性能?

原文内容


DeepResearch 的价值在于把「查资料」变成「做研究」:不是搜到一条就回答,而是会连续多轮地提出问题、去不同地方找证据、互相对照核实、再把信息整理成结构清晰的结论。这样做能显著降低「凭感觉瞎编」的风险,特别适合那些信息分散、容易混淆、需要多步推理和多来源佐证的复杂问题。


工业级 deepresearch LLM(如 tongyi-deepresearch、MiroThinker),将文本 DeepResearch 性能从探索级提高到了与闭源模型的 agentic reasoning pipeline 相当的性能,但多模态 DeepResearch 依然处在初期。


图 1A:指出现有多模态深度研究在图像搜索上的两大瓶颈:忽视搜索引擎命中率问题(单次全图 / 实体检索常失败,不同尺度裁剪结果波动大),以及推理深度与检索广度不足(轨迹短、交互少)。图 1B:展示整体流程:自动合成高质量 VQA 与多轮轨迹,并通过 SFT+RL 把深研能力内化到 MLLM 中,使其能进行多轮、多实体、多尺度的视觉与文本搜索。底部结果对比表明:在统一的 agentic 推理设置下,模型以更小参数规模在 6 个基准上达到 SOTA。


在现实世界中,多模态 DeepResearch 有着重要意义,其将研究能力从「只看文字」扩展到「文字 + 图片 / 图表 / 截图等」。现实世界里很多关键信息就藏在视觉内容里:一张照片里的标志、一个产品细节、一页报告截图里的表格、一张地图或示意图。


多模态 DeepResearch 能把这些视觉线索也当成证据来使用:先从图片中抓住关键点,再去查文字资料验证补全,必要时再回到图片继续核对,最后把图文证据一起整合成更可靠、更完整的答案。这样不仅覆盖的信息更全,也更接近人类真实的研究方式。


基于此,作者构建了一个面向真实世界搜索环境的多模态 deep-research 大模型,通过 VQA 数据合成 + 轨迹合成 + 冷启动 + 大规模强化学习,解决当前工作所忽略的引擎命中率问题,将推理轮数提高到数十轮,与搜索引擎交互次数提高到了数百次。



  • 机构:港中文 MMLab,中科大,小红书等

  • HF daily paper:

  • https://huggingface.co/papers/2601.22060

  • https://huggingface.co/papers/2602.02185

  • Project page: https://osilly.github.io/Vision-DeepResearch/


相比于之前的 multimodal deep-research MLLM 在 6 个主流 benchmark 上几乎翻倍性能,对比例如 gpt5、gemini2.5pro、claude4 等强大闭源模型的 agentic reasoning pipeline,使用 30B-A3B 甚至 8B 参数规模几乎都取得了领先或者相当的性能。


基线对比 Demo:



更多 case 展示:






现有一些多模态 DeepResearch 的探索,在真实网页环境里经常卡在两道硬坎,这导致他们缺乏实际应用价值:


  1. 命中率问题(hit-rate)被忽视:一张全图 / 一次实体级查询往往被背景噪声带偏;同一实体不同尺度裁剪,检索结果差异巨大。

  2. 推理深度与检索广度不足:多数方法轨迹短、工具调用少,难以完成多跳证据聚合与复杂问题的「试错式搜证」。


Vision-DeepResearch 提出新的多模态深度研究范式:把检索从「一次性操作」升级为多轮试探 — 反馈 — 再检索的长期交互过程,支持几十步推理、上百次引擎交互,让模型像人一样在噪声环境中不断缩小范围、验证证据,最终稳定命中关键事实。


方法核心:多尺度视觉检索 + 文本深研接力 + 端到端内化


整体路线是「高质量长轨迹合成 → 冷启动 SFT → 在线高效异步 RL 内化能力」


  1. 多实体 / 多尺度视觉裁剪检索(CIS):模型先定位与问题相关区域,生成多个 bbox 与不同尺度 crop 并行发起视觉搜索,显著提升命中率。

  2. 视觉→网页→摘要→验证的证据管线:视觉搜索返回 URL 后,访问网页并用辅助模型做摘要与图文一致性验证,过滤噪声,提炼可用证据。

  3. 桥接文本 DeepResearch 能力:利用强文本 DeepResearch 基础模型生成对应的文本搜索长轨迹,实现跨模态长视野推理迁移。

  4. 训练策略:先用约 30K 长轨迹做 SFT 教会「怎么搜、怎么查、怎么写轨迹」,再用在线强化学习在真实在线搜索环境中优化策略(纯准确率奖励 + 多种工程稳定化技巧),把深研行为真正「内化」为模型能力。


图 2 数据管线高质量轨迹数据生成;多跳复杂 VQA 合成


实验:小参数也能打到 SOTA,长视野交互是关键增益来源


性能强大:在 VDR、FVQA、MMSearch (+)、LiveVQA、BC-VL 等 6 个基准上:


  1. Vision-DeepResearch-8B 在同等 agent 设置下,相比 Qwen3-VL-8B-Instruct(Agentic)平均提升约 + 10.4%

  2. Vision-DeepResearch-30B-A3B 进一步把整体成绩推到更高水平(平均提升约 + 16.0%),在多个基准上持续扩大优势。超越 GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet 等强大闭源模型构成的 deep-research 系统的性能。



消融结论明确


  1. 仅全图检索(WIS)收益有限且易受噪声干扰;

  2. 多尺度裁剪(CIS)显著提升视觉命中;

  3. CIS + 文本搜索(TS)组合最好,同时满足「视觉锚点精准 + 长尾知识补全」;

  4. RL 进一步把长视野决策做稳:模型学会用更少但更有效的步骤拿到更高回报。



VDR-Bench:重新定义视觉深研评测!2,000 条「必须做视觉搜索」的真实难题,专治文本捷径与全图完美检索


多模态深度研究系统越来越多,但评测却长期「不对题」:很多基准存在两类系统性漏洞:


  1. 不够「视觉搜索中心」:答案常被问题文本线索泄露,甚至可用模型先验知识 / 纯文本检索绕过视觉验证,导致分数虚高。

  2. 检索场景过于理想化:全图反搜经常命中几乎一模一样的「近重复图片 + 标题元信息」,形成「完美检索(perfect retrieval)」,没测到真实环境下的定位、裁剪、试错与跨模态核验能力。文搜搜索深度太浅,无法反映真实世界的复杂性。


图 3 现有评测基准两大缺陷


VDR-Bench 为此提出一套更贴近现实的评测基准:2,000 条多跳 VQA,覆盖 10 个视觉域,强调必须通过局部实体发现 + 迭代裁剪检索 + 文本多跳推理才能可靠作答,从源头减少捷径与「全图一把梭」


基准构建核心:从「视觉实体」出发,强制闭环证据链


VDR-Bench 采用严格的「视觉优先」多阶段流程:


  1. 人工裁剪 + Web 级视觉搜索:标注者优先裁剪显著局部(logo / 人物 / 地标 / 产品等)而非整图,模拟真实搜图行为。

  2. 实体抽取与验证:从检索结果标题 / 描述抽取候选实体,经 MLLM 过滤一致性,再由人工核验,确保实体不是「全图轻松搜到」的近重复泄露。

  3. Seed VQA 生成:围绕已验证视觉实体生成需要显式识别与落地的问答。

  4. 知识图谱随机游走做多跳扩展:把问题升级为「从视觉实体出发」的多跳推理(总部城市 / 创始人 / 年份 / 关联组织等)。

  5. 可解性与去捷径审核:自动与人工双重检查,确保必须依赖记录下来的视觉检索证据与推理路径,避免歧义与 shortcut。


图 4 多阶段数据标注管道


在 VDR-Bench 上,模型必须主动检索才有明显提升,并且作者发现「Lazy Search(懒搜索)」:越强的模型越可能依赖先验知识、反而不愿意充分调用视觉检索,导致深研题表现不匹配其基础能力。


为缓解这一点,作者提出 Multi-turn Visual Forcing(MVF):在推理流程上强制多轮、多尺度裁剪与验证,大幅提升深度检索性能。



意义与未来


Vision-DeepResearch 证明:多模态深研能力的关键不只是「会调用工具」,而是要在噪声世界里形成长视野、可试错、可验证的检索 — 推理闭环;并且通过可规模化数据合成与 RL,可以把这种行为从 workflow 变成模型的内生能力。


VDR-Bench 把「视觉深研」从「能不能答对」升级为「能不能在噪声世界里定位 — 检索 — 验证 — 多跳推理」,为后续模型与 Agent 训练提供更真实的测试平台,也让社区更清楚:下一代多模态深研系统的瓶颈到底在哪里?


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

VDR-Bench 这种评测方式更贴近真实场景,避免了模型通过“背答案”或利用数据捷径来获得高分。它考察的是模型真正的研究能力,而不是记忆力。
不过,这种评测方式的构建也更复杂,标注成本更高,而且对于评测环境的要求也更高。另外,如果评测的数据不够多样化,也可能导致模型只擅长解决特定类型的问题。

这个问题的本质是资源分配。感觉像一个AI在玩星际争霸,到底是暴兵rush还是攀科技憋大招?
多尺度裁剪提升了搜索的精度,但是也消耗了更多的算力资源。我的想法是,可以引入一个动态的资源调度器,根据任务的紧急程度和重要性,动态地调整分配给多尺度裁剪的计算资源。重要紧急的任务,多分配一些资源;不重要不紧急的任务,少分配一些资源,甚至可以不做多尺度裁剪。

谢邀, 从信息检索的角度来看,单次检索容易受到query表达的限制,无法准确捕捉用户的真实意图。 多轮交互允许用户逐步 уточнять ( уточнять 是 明确 的意思) 需求,模型也可以通过用户反馈不断优化搜索策略,从而更有效地找到目标信息。这种模式也更符合人类解决问题的思维方式。

VDR-Bench 的“视觉优先”策略,就像是给模型设置了一个“游戏规则”,强制它必须先凭借视觉线索破案,才能去查阅文本资料。这种做法有效地避免了模型偷懒,直接从问题描述中寻找答案。

这种评测方式的启发在于:

* 更加真实:模拟了现实世界中我们解决问题的过程,往往是先看到图像,再去查找相关的文字信息。
* 更加全面:能够更全面地评估模型的多模态理解能力,不仅仅是文本理解能力。
* 更加具有挑战性:迫使模型必须具备更强的视觉推理能力,才能在复杂的场景中找到答案。

未来的多模态研究应该更加注重构建更加真实、更加全面的评测基准,才能更好地推动多模态技术的发展。

我觉得这个方法有点像我们平时在网上找东西,一开始可能只知道一个大概的关键词,搜出来的结果五花八门。然后我们会不断地缩小搜索范围,比如加上一些限定词,或者直接搜图片里的局部特征,这样才能更精准地找到想要的东西。

多尺度视觉检索的挑战也类似,关键在于如何让机器像人一样,学会逐步缩小搜索范围,找到最相关的视觉信息。这需要模型具备一定的“常识”和推理能力,才能在复杂的视觉环境中做出正确的判断。

我觉得这个问题有点像在问“如何证明一个程序没有bug”。答案是,你永远无法完全证明。但是,我们可以通过不断测试、不断修复,来提高程序的可靠性。对于评测基准也是一样,我们可以通过不断地挖掘漏洞、不断地完善数据,来提高其评测的准确性。

我觉着吧,像文物鉴定这种场景就挺适合的。一张老照片,细节模糊,信息残缺,单凭专家经验容易出错。但如果用这套多模态深度研究,先从照片里提取关键特征(比如纹饰、造型),然后进行多轮检索,比对历史资料,就能大大提高鉴定的准确性。而且啊,说不定还能发现新的历史信息,想想就刺激!

嘿嘿,我觉得最大的挑战还是“像不像真的”。现在很多AI合成的数据,一眼就能看出来是假的,模型也很聪明,学到的可能只是怎么识别假数据,而不是真正理解任务。所以,要让AI学得像人一样,还得在数据合成上下大功夫。另外,强化学习也挺玄学的,reward设不好,模型就容易跑偏,到时候学出一堆奇奇怪怪的技能,可就不好玩了。

元学习(Meta Learning)或许可以一试。让模型学习如何在不同的 DeepResearch 子任务上快速适应和学习,从而提高其泛化能力和学习效率。例如,可以构建一个包含多个不同领域或类型的 DeepResearch 任务的数据集,然后使用元学习算法训练模型,使其能够快速适应新的 DeepResearch 任务。