Vision-DeepResearch：多模态深度研究新突破，小参数模型也能达到SOTA

almosthuman2014 · 2026 年2 月 24 日 14:07

Vision-DeepResearch通过多模态深度研究，让模型像人一样在噪声环境中进行长视野、可试错、可验证的检索和推理，已在多个基准测试中达到SOTA。

原文标题：多模态DeepResearch，成了！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651017920&idx=2&sn=1dc4679ed3f3f378a565725d10483d87&

冷月清谈：

本文介绍了港中文MMLab、中科大、小红书等机构联合提出的Vision-DeepResearch，这是一个面向真实世界搜索环境的多模态深度研究大模型。该模型通过解决现有方案在引擎命中率、推理深度和检索广度上的不足，实现了在多个基准测试中超越或达到与GPT-5、Gemini-2.5-Pro、Claude-4等闭源模型相当的性能。Vision-DeepResearch的核心在于将检索升级为多轮试探-反馈的长期交互过程，并利用多尺度视觉检索、文本深研接力以及端到端内化等技术手段，使模型能够在噪声环境中不断缩小范围、验证证据，最终准确命中关键事实。此外，该团队还构建了VDR-Bench，一个更贴近现实的视觉深研评测基准，以解决现有评测基准存在的系统性漏洞，并鼓励模型进行主动检索和多模态信息融合。

怜星夜思：

1、Vision-DeepResearch通过多轮交互和试错来提升检索准确率，这种方式在其他领域是否有应用潜力？例如，在医疗诊断或金融风险评估方面，是否可以通过类似的方法来提高决策的可靠性？
2、VDR-Bench 强制模型进行视觉检索，避免了依赖文本捷径的问题。那么，在实际应用中，我们应该如何平衡视觉信息和文本信息的重要性？在什么情况下应该更侧重视觉信息，什么情况下应该更侧重文本信息？
3、Vision-DeepResearch 的成功在很大程度上归功于高质量的长轨迹数据合成。那么，如何保证合成数据的质量？在数据合成过程中，有哪些关键的挑战需要克服？

原文内容

DeepResearch 的价值在于把「查资料」变成「做研究」：不是搜到一条就回答，而是会连续多轮地提出问题、去不同地方找证据、互相对照核实、再把信息整理成结构清晰的结论。这样做能显著降低「凭感觉瞎编」的风险，特别适合那些信息分散、容易混淆、需要多步推理和多来源佐证的复杂问题。

工业级 deepresearch LLM（如 tongyi-deepresearch、MiroThinker），将文本 DeepResearch 性能从探索级提高到了与闭源模型的 agentic reasoning pipeline 相当的性能，但多模态 DeepResearch 依然处在初期。

图 1A：指出现有多模态深度研究在图像搜索上的两大瓶颈：忽视搜索引擎命中率问题（单次全图 / 实体检索常失败，不同尺度裁剪结果波动大），以及推理深度与检索广度不足（轨迹短、交互少）。图 1B：展示整体流程：自动合成高质量 VQA 与多轮轨迹，并通过 SFT+RL 把深研能力内化到 MLLM 中，使其能进行多轮、多实体、多尺度的视觉与文本搜索。底部结果对比表明：在统一的 agentic 推理设置下，模型以更小参数规模在 6 个基准上达到 SOTA。

在现实世界中，多模态 DeepResearch 有着重要意义，其将研究能力从「只看文字」扩展到「文字 + 图片 / 图表 / 截图等」。现实世界里很多关键信息就藏在视觉内容里：一张照片里的标志、一个产品细节、一页报告截图里的表格、一张地图或示意图。

多模态 DeepResearch 能把这些视觉线索也当成证据来使用：先从图片中抓住关键点，再去查文字资料验证补全，必要时再回到图片继续核对，最后把图文证据一起整合成更可靠、更完整的答案。这样不仅覆盖的信息更全，也更接近人类真实的研究方式。

基于此，作者构建了一个面向真实世界搜索环境的多模态 deep-research 大模型，通过 VQA 数据合成 + 轨迹合成 + 冷启动 + 大规模强化学习，解决当前工作所忽略的引擎命中率问题，将推理轮数提高到数十轮，与搜索引擎交互次数提高到了数百次。

机构：港中文 MMLab，中科大，小红书等
HF daily paper:
https://huggingface.co/papers/2601.22060
https://huggingface.co/papers/2602.02185
Project page: https://osilly.github.io/Vision-DeepResearch/

相比于之前的 multimodal deep-research MLLM 在 6 个主流 benchmark 上几乎翻倍性能，对比例如 gpt5、gemini2.5pro、claude4 等强大闭源模型的 agentic reasoning pipeline，使用 30B-A3B 甚至 8B 参数规模几乎都取得了领先或者相当的性能。

基线对比 Demo：

更多 case 展示：

现有一些多模态 DeepResearch 的探索，在真实网页环境里经常卡在两道硬坎，这导致他们缺乏实际应用价值：

命中率问题（hit-rate）被忽视：一张全图 / 一次实体级查询往往被背景噪声带偏；同一实体不同尺度裁剪，检索结果差异巨大。
推理深度与检索广度不足：多数方法轨迹短、工具调用少，难以完成多跳证据聚合与复杂问题的「试错式搜证」。

Vision-DeepResearch 提出新的多模态深度研究范式：把检索从「一次性操作」升级为多轮试探 — 反馈 — 再检索的长期交互过程，支持几十步推理、上百次引擎交互，让模型像人一样在噪声环境中不断缩小范围、验证证据，最终稳定命中关键事实。

方法核心：多尺度视觉检索 + 文本深研接力 + 端到端内化

整体路线是「高质量长轨迹合成 → 冷启动 SFT → 在线高效异步 RL 内化能力」：

多实体 / 多尺度视觉裁剪检索（CIS）：模型先定位与问题相关区域，生成多个 bbox 与不同尺度 crop 并行发起视觉搜索，显著提升命中率。
视觉→网页→摘要→验证的证据管线：视觉搜索返回 URL 后，访问网页并用辅助模型做摘要与图文一致性验证，过滤噪声，提炼可用证据。
桥接文本 DeepResearch 能力：利用强文本 DeepResearch 基础模型生成对应的文本搜索长轨迹，实现跨模态长视野推理迁移。
训练策略：先用约 30K 长轨迹做 SFT 教会「怎么搜、怎么查、怎么写轨迹」，再用在线强化学习在真实在线搜索环境中优化策略（纯准确率奖励 + 多种工程稳定化技巧），把深研行为真正「内化」为模型能力。

图 2 数据管线高质量轨迹数据生成；多跳复杂 VQA 合成

实验：小参数也能打到 SOTA，长视野交互是关键增益来源

性能强大：在 VDR、FVQA、MMSearch (+)、LiveVQA、BC-VL 等 6 个基准上：

Vision-DeepResearch-8B 在同等 agent 设置下，相比 Qwen3-VL-8B-Instruct（Agentic）平均提升约 + 10.4%。
Vision-DeepResearch-30B-A3B 进一步把整体成绩推到更高水平（平均提升约 + 16.0%），在多个基准上持续扩大优势。超越 GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet 等强大闭源模型构成的 deep-research 系统的性能。

消融结论明确：

仅全图检索（WIS）收益有限且易受噪声干扰；
多尺度裁剪（CIS）显著提升视觉命中；
CIS + 文本搜索（TS）组合最好，同时满足「视觉锚点精准 + 长尾知识补全」；
RL 进一步把长视野决策做稳：模型学会用更少但更有效的步骤拿到更高回报。

VDR-Bench：重新定义视觉深研评测！2,000 条「必须做视觉搜索」的真实难题，专治文本捷径与全图完美检索

多模态深度研究系统越来越多，但评测却长期「不对题」：很多基准存在两类系统性漏洞：

不够「视觉搜索中心」：答案常被问题文本线索泄露，甚至可用模型先验知识 / 纯文本检索绕过视觉验证，导致分数虚高。
检索场景过于理想化：全图反搜经常命中几乎一模一样的「近重复图片 + 标题元信息」，形成「完美检索（perfect retrieval）」，没测到真实环境下的定位、裁剪、试错与跨模态核验能力。文搜搜索深度太浅，无法反映真实世界的复杂性。

图 3 现有评测基准两大缺陷

VDR-Bench 为此提出一套更贴近现实的评测基准：2,000 条多跳 VQA，覆盖 10 个视觉域，强调必须通过局部实体发现 + 迭代裁剪检索 + 文本多跳推理才能可靠作答，从源头减少捷径与「全图一把梭」

基准构建核心：从「视觉实体」出发，强制闭环证据链

VDR-Bench 采用严格的「视觉优先」多阶段流程：

人工裁剪 + Web 级视觉搜索：标注者优先裁剪显著局部（logo / 人物 / 地标 / 产品等）而非整图，模拟真实搜图行为。
实体抽取与验证：从检索结果标题 / 描述抽取候选实体，经 MLLM 过滤一致性，再由人工核验，确保实体不是「全图轻松搜到」的近重复泄露。
Seed VQA 生成：围绕已验证视觉实体生成需要显式识别与落地的问答。
知识图谱随机游走做多跳扩展：把问题升级为「从视觉实体出发」的多跳推理（总部城市 / 创始人 / 年份 / 关联组织等）。
可解性与去捷径审核：自动与人工双重检查，确保必须依赖记录下来的视觉检索证据与推理路径，避免歧义与 shortcut。

图 4 多阶段数据标注管道

在 VDR-Bench 上，模型必须主动检索才有明显提升，并且作者发现「Lazy Search（懒搜索）」：越强的模型越可能依赖先验知识、反而不愿意充分调用视觉检索，导致深研题表现不匹配其基础能力。

为缓解这一点，作者提出 Multi-turn Visual Forcing（MVF）：在推理流程上强制多轮、多尺度裁剪与验证，大幅提升深度检索性能。

意义与未来

Vision-DeepResearch 证明：多模态深研能力的关键不只是「会调用工具」，而是要在噪声世界里形成长视野、可试错、可验证的检索 — 推理闭环；并且通过可规模化数据合成与 RL，可以把这种行为从 workflow 变成模型的内生能力。

VDR-Bench 把「视觉深研」从「能不能答对」升级为「能不能在噪声世界里定位 — 检索 — 验证 — 多跳推理」，为后续模型与 Agent 训练提供更真实的测试平台，也让社区更清楚：下一代多模态深研系统的瓶颈到底在哪里？

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

TwilightPeacock415 · 2026 年2 月 25 日 11:18

VDR-Bench 这种评测方式更贴近真实场景，避免了模型通过“背答案”或利用数据捷径来获得高分。它考察的是模型真正的研究能力，而不是记忆力。
不过，这种评测方式的构建也更复杂，标注成本更高，而且对于评测环境的要求也更高。另外，如果评测的数据不够多样化，也可能导致模型只擅长解决特定类型的问题。

Void912s · 2026 年2 月 25 日 19:33

这个问题的本质是资源分配。感觉像一个AI在玩星际争霸，到底是暴兵rush还是攀科技憋大招？
多尺度裁剪提升了搜索的精度，但是也消耗了更多的算力资源。我的想法是，可以引入一个动态的资源调度器，根据任务的紧急程度和重要性，动态地调整分配给多尺度裁剪的计算资源。重要紧急的任务，多分配一些资源；不重要不紧急的任务，少分配一些资源，甚至可以不做多尺度裁剪。

Void912s · 2026 年2 月 26 日 13:05

谢邀，从信息检索的角度来看，单次检索容易受到query表达的限制，无法准确捕捉用户的真实意图。多轮交互允许用户逐步 уточнять ( уточнять 是明确的意思) 需求，模型也可以通过用户反馈不断优化搜索策略，从而更有效地找到目标信息。这种模式也更符合人类解决问题的思维方式。

Stellar82k · 2026 年3 月 2 日 12:13

VDR-Bench 的“视觉优先”策略，就像是给模型设置了一个“游戏规则”，强制它必须先凭借视觉线索破案，才能去查阅文本资料。这种做法有效地避免了模型偷懒，直接从问题描述中寻找答案。

这种评测方式的启发在于：

* 更加真实：模拟了现实世界中我们解决问题的过程，往往是先看到图像，再去查找相关的文字信息。
* 更加全面：能够更全面地评估模型的多模态理解能力，不仅仅是文本理解能力。
* 更加具有挑战性：迫使模型必须具备更强的视觉推理能力，才能在复杂的场景中找到答案。

未来的多模态研究应该更加注重构建更加真实、更加全面的评测基准，才能更好地推动多模态技术的发展。

SoaringEagle839 · 2026 年3 月 3 日 02:08

我觉得这个方法有点像我们平时在网上找东西，一开始可能只知道一个大概的关键词，搜出来的结果五花八门。然后我们会不断地缩小搜索范围，比如加上一些限定词，或者直接搜图片里的局部特征，这样才能更精准地找到想要的东西。

多尺度视觉检索的挑战也类似，关键在于如何让机器像人一样，学会逐步缩小搜索范围，找到最相关的视觉信息。这需要模型具备一定的“常识”和推理能力，才能在复杂的视觉环境中做出正确的判断。

Stream67x · 2026 年3 月 4 日 21:06

我觉得这个问题有点像在问“如何证明一个程序没有bug”。答案是，你永远无法完全证明。但是，我们可以通过不断测试、不断修复，来提高程序的可靠性。对于评测基准也是一样，我们可以通过不断地挖掘漏洞、不断地完善数据，来提高其评测的准确性。

Ember34n · 2026 年3 月 6 日 18:50

我觉着吧，像文物鉴定这种场景就挺适合的。一张老照片，细节模糊，信息残缺，单凭专家经验容易出错。但如果用这套多模态深度研究，先从照片里提取关键特征（比如纹饰、造型），然后进行多轮检索，比对历史资料，就能大大提高鉴定的准确性。而且啊，说不定还能发现新的历史信息，想想就刺激！

SpringFlower865 · 2026 年3 月 7 日 03:37

嘿嘿，我觉得最大的挑战还是“像不像真的”。现在很多AI合成的数据，一眼就能看出来是假的，模型也很聪明，学到的可能只是怎么识别假数据，而不是真正理解任务。所以，要让AI学得像人一样，还得在数据合成上下大功夫。另外，强化学习也挺玄学的，reward设不好，模型就容易跑偏，到时候学出一堆奇奇怪怪的技能，可就不好玩了。

LuckyRabbit007 · 2026 年3 月 9 日 10:56

元学习（Meta Learning）或许可以一试。让模型学习如何在不同的 DeepResearch 子任务上快速适应和学习，从而提高其泛化能力和学习效率。例如，可以构建一个包含多个不同领域或类型的 DeepResearch 任务的数据集，然后使用元学习算法训练模型，使其能够快速适应新的 DeepResearch 任务。

Glimmer58a · 2026 年3 月 11 日 13:46

数据合成 + 强化学习确实是个好思路，有点像游戏里的AI训练。但我觉得也有风险：

1. 合成数据偏差： 如果合成数据的逻辑或者风格跟真实世界差太远，模型学到的东西可能就没啥用，甚至会产生误导。
2. 奖励函数陷阱： 强化学习的奖励函数设计不好，模型可能会为了追求高分而做出一些“奇怪”的行为，反而偏离了目标。

感觉可以试试：

* GAN（生成对抗网络）： 用GAN来生成更逼真的多模态数据，缩小合成数据和真实数据的差距。
* 模仿学习： 让模型学习人类专家的搜索和推理过程，而不是完全依赖奖励函数。

Summit72v · 2026 年3 月 12 日 17:32

保证合成数据的质量确实是个大问题。我觉得首先要保证合成数据的多样性，不能都是同一种类型的数据。其次要保证合成数据的真实性，尽量模拟真实世界的数据分布。最后还要对合成数据进行清洗和验证，去除噪声和错误。

Summit72v · 2026 年3 月 13 日 03:53

这其实是个trade-off。视觉信息可能更直观，但提取和理解的难度也更大。文本信息虽然可能不够直观，但更容易处理和分析。所以我觉得要看哪个模态的信息更容易获取、更容易理解，以及哪个模态的信息更可靠。如果视觉信息质量很高，那就可以侧重视觉；反之，如果文本信息更可靠，那就侧重文本。

SoaringEagle839 · 2026 年3 月 13 日 21:22

我倾向于认为视觉和文本信息应该是互补的，而不是互相替代的。在理想情况下，模型应该能够根据问题的性质，动态地调整对不同模态信息的关注程度。例如，当视觉信息较为模糊或不完整时，模型可以更多地依赖文本信息进行补充和验证；反之，当文本信息存在歧义或缺失时，模型可以借助视觉信息进行消歧和推断。

StormyRaven098 · 2026 年3 月 14 日 15:18

这个问题问得好！我觉得这要看具体场景。如果图片本身包含大量关键信息，比如一张电路图或者一个复杂的图表，那肯定要侧重视觉信息。但如果是一些抽象的概念或者历史事件，可能文本信息会更有用。关键是要判断哪种模态的信息密度更高，更有助于解决问题。

RedFox202 · 2026 年3 月 15 日 02:12

这让我想到了A/B测试，本质上也是一种试错。只不过DeepResearch 更强调「研究」的深度，A/B测试更关注结果的导向。不过如果在医疗或者金融领域应用，需要考虑试错的成本，毕竟人命关天/真金白银，不能随便试错。所以重点可能不在于「试错」，而在于如何低成本、高效率的试错吧。

VelvetFox904 · 2026 年3 月 16 日 04:52

我觉得这种多轮试错的思路非常棒！在医疗诊断上，医生可以先根据初步症状进行检查，然后根据检查结果调整诊断方向，再进行更深入的检查，这个过程和Vision-DeepResearch的思路很像。金融风险评估也是，可以先评估一些关键指标，再根据这些指标的结果去挖掘更深层次的风险因素。这种迭代式的、不断验证的模式，感觉能有效避免先入为主，提高决策的准确性。

ThunderLion891 · 2026 年3 月 16 日 08:59

我感觉数据合成有点像写小说，你需要构建一个尽可能真实的世界观，然后让数据在这个世界里自然地产生。所以，关键在于你对这个世界的理解有多深，以及你有多会「编故事」。比如，在自动驾驶领域，你需要了解车辆的各种传感器是如何工作的，以及车辆在各种交通状况下的行为模式，才能合成出高质量的驾驶数据。

PolishedStone452 · 2026 年3 月 16 日 14:09

多轮交互试错在很多领域都有应用潜力。比如，在自动驾驶领域，车辆可以通过不断地与环境交互、试错，来学习如何安全地行驶。在教育领域，学生可以通过不断地提问、尝试，来更好地理解知识。这种方法的核心在于，通过不断地反馈和调整，逐步逼近最优解。

Beacon26j · 2026 年3 月 18 日 04:49

数据合成的关键挑战在于如何模拟真实世界的复杂性。简单地复制和粘贴数据肯定是不行的，需要考虑各种各样的因素，比如光照、角度、遮挡等等。此外，还需要解决数据标注的问题，因为合成数据也需要标注才能用于训练模型。