VideoDR:首个视频深度研究评测基准,检验AI多模态推理与网络搜索能力

VideoDR:首个视频深度研究基准,评测AI结合视频与网络搜索进行多跳推理的能力。突破“视频孤岛”,让AI学会自主搜索。

原文标题:别再让AI“只看不搜”,真正解决问题需要它自己去查资料

原文作者:数据派THU

冷月清谈:

本文介绍了首个视频深度研究评测基准VideoDR,旨在评估AI在结合视频线索和网络搜索进行多跳推理方面的能力。与传统视频问答不同,VideoDR要求AI不仅理解视频内容,还要能够主动上网搜索相关信息并整合,以解决更复杂的问题。该基准的双重依赖性测试确保了模型必须同时利用视频和网络信息才能得出答案。评测结果表明,Gemini-3-pro-preview和GPT-5.2在准确率方面领先,但Agentic(代理)模式并非总是优于Workflow(工作流)模式,尤其是在长视频和复杂任务中,Agentic模式容易出现目标漂移,而Workflow模式通过显式的中间文本作为“外部记忆”来保持一致性。此外,长视频是检验AI长期一致性能力的“照妖镜”,部分模型在长视频场景下性能会显著下降。VideoDR的推出将视频理解的研究拓展到开放网络,对未来视频Agent的发展具有重要意义,提示我们保持视觉线索的长程一致性是关键

怜星夜思:

1、VideoDR基准测试中,Agentic模式在哪些情况下会优于Workflow模式?除了长视频和复杂任务外,还有其他因素会影响两种模式的性能吗?
2、VideoDR的评测结果揭示了AI在长视频处理中存在“记忆衰退”的问题。除了保持视觉线索的长程一致性,还有哪些方法可以缓解或解决这个问题?
3、VideoDR基准的提出,对于未来视频Agent的发展有哪些启示?除了提升视觉线索的长程一致性,视频Agent还需要具备哪些关键能力才能更好地服务于真实世界的复杂调研任务?

原文内容

图片
来源:新智元
本文约1000字,建议阅读5分钟
本文介绍了首个视频深度研究评测基准VideoDR,评测AI结合视频与网络搜索进行多跳推理的能力。


[ 导读 ] 现有的多模态模型往往被困在「视频」的孤岛里——它们只能回答视频内的问题。但在真实世界中,人类解决问题往往是「看视频找线索 -> 上网搜证 -> 综合推理」。为了填补这一空白,来自QuantaAlpha、兰州大学、香港科技大学(广州)、北京大学等机构的研究者联合推出了首个视频深度研究(Video Deep Research)评测基准VideoDR。


在传统的视频问答(VideoQA)中,答案通常就在视频里。


然而,真正的智能Video Agent应该具备Deep Research的能力。


试想这样一个场景:你看到视频中博物馆的一个展品,想知道「该博物馆推荐的展品中,距离这个展品最近的那个,其注册编号是多少?」


这不仅仅需要理解视频(识别展品、定位位置),还需要跳出视频,去博物馆官网查找地图、推荐列表和编号信息。


论文链接:https://arxiv.org/abs/2601.06943

代码链接:https://github.com/QuantaAlpha/VideoDR-Benchmark


VideoDR (Video Deep Research) 正是为此而生,它定义了一个全新的任务范式:

  1. 多帧视觉线索:从多个视频帧中准确识别连续的关键信息进行推理。

  2. 交互式网络搜索:在浏览器环境中进行交互,执行多跳深度搜索。

  3. 多跳推理验证:结合视频线索和网络证据,提供可验证的事实性答案。



为了保证评测的含金量,VideoDR并没有采用自动化生成,而是进行了严格的人工标注与质检。



双重依赖性测试:剔除了那些「只看视频就能答」或「只搜文字就能答」的样本,确保模型必须结合两者能力。


六大领域覆盖:涵盖日常生活、经济、科技、文化、历史、地理。



Workflow vs. Agentic


研究人员对比了两种主流范式:

  • Workflow(工作流模式): 将视频转化为结构化文本线索,再进行搜索推理。

  • Agentic(代理模式): 模型直接端到端处理视频和搜索,自主决定何时搜索、何时思考。


评测模型:

  • 闭源模型: GPT-5.2, GPT-4o, Gemini-3-pro-preview

  • 开源模型: Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 4.5


核心发现与洞察


谁是目前的最强王者?


Gemini-3-pro-preview和GPT-5.2处于第一梯队,准确率达到了69%-76%左右,显著领先于其他模型。



Agentic 模式一定更强吗?


答案是:不一定。


虽然 Agentic 模式更灵活,但在长视频或高难度任务中,模型容易出现目标漂移(Goal Drift)。


  • Workflow 的优势: 显式的中间文本充当了「外部记忆」,防止模型在漫长的搜索链路中忘记最初视频里的视觉细节。

  • Agentic 的短板: 一旦初始的视觉感知出现偏差,且无法回看视频,错误的搜索路径会被不断放大。


长视频是「照妖镜」


在长视频场景下,模型保持长期一致性(Long-horizon Consistency)的能力成为瓶颈。


强如Gemini-3在Agentic模式下能利用长上下文获得提升,而部分开源模型在长视频下性能反而大幅下降。



总结


VideoDR将视频理解的战场从封闭测试集延伸到了无限的开放网络。


评测结果深刻揭示了「端到端」并非万能药:在面对长链路搜索时,模型往往会陷入「记忆衰退」的困境。


未来的视频 Agent 只有在保持视觉线索的长程一致性上取得突破,才能真正胜任真实世界的复杂调研任务。


参考资料:

https://arxiv.org/abs/2601.06943


编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我理解Agentic模式应该在一些需要快速响应和动态适应的场景下会更有优势。比如,在观看一个突发新闻视频时,Agentic模式可以更快地根据视频内容调整搜索策略,获取最新信息。而Workflow模式可能因为需要先将视频转化为结构化文本,再进行搜索,而错失了时效性。

另外,如果视频本身的信息密度不高,或者需要模型具备一定的创造性才能找到答案,Agentic模式可能也能更好地发挥它的优势。因为它不像Workflow模式那样依赖于明确的文本线索,可以更自由地探索和联想。

Agentic模式的上限更高,Workflow模式的下限更高。如果Agentic的agent调教的足够好,那么它在所有场景下都优于Workflow。但是如果agent本身的能力不足以支撑起这个任务,或者环境的干扰因素过多,那么Agentic的表现就会非常不稳定,远不如Workflow。

所以,目前阶段,在资源不足的情况下,Workflow仍然是更稳妥的选择。

我觉得可以借鉴人类的学习方式啊!比如,在观看长视频时,我们可以做笔记,记录关键信息。对于AI来说,也可以引入类似“记忆模块”的机制,让它可以选择性地记住重要的视觉线索,并在需要的时候进行回顾。另外,将长视频分解成更小的片段,分段处理,也有助于减少信息丢失。

这让我想到了知识图谱!我们可以构建一个基于视频内容的知识图谱,将视频中的各种实体、关系和事件都表示出来。这样,AI在处理长视频时,就可以通过查询知识图谱来获取所需的信息,而不需要完全依赖于对原始视频的记忆。

而且,知识图谱还可以不断更新和完善,从而提高AI的长期记忆能力。

除了理解用户意图,视频Agent还需要具备一定的“常识”和“推理”能力。比如,用户让AI“帮我推荐一个适合在夏天穿的裙子”,AI不仅要能识别出视频中的裙子,还要能根据季节、材质等因素进行判断,并给出合理的推荐。

这需要AI具备更强的知识储备和推理能力,才能更好地理解用户的需求。

我觉得很重要的一点是被服务用户的隐私保护。视频Agent在进行深度研究的时候,不可避免地会涉及到用户的个人信息。如何确保这些信息不被滥用,是一个非常重要的问题。未来的视频Agent应该具备完善的隐私保护机制,让用户可以放心地使用。

我觉得VideoDR给我们最大的启示就是要让AI走出“舒适区”,不要只局限于视频本身的内容,而是要学会利用外部资源。未来的视频Agent不仅要能看懂视频,还要能听懂人话,理解用户的意图。比如,用户说“帮我找一下视频里那件衣服的购买链接”,AI就要能自动识别出视频中的衣服,然后在网上搜索类似的商品,并提供购买链接。

emmm… 换个角度思考,为啥一定要让AI记住所有信息呢?是不是可以考虑让AI学会“提问”?当它遇到不确定的信息时,可以主动向用户提问,或者发起新的搜索,从而获取更准确的答案。与其让AI被动地记忆,不如让它主动地探索。