Response-G1:用场景图帮流式视频大模型判断“什么时候该开口”

Response-G1 用场景图显式对齐视频证据与提问条件,让流式视频大模型更会判断何时响应。

原文标题:ACL 2026|证据摊开看,场景图画清:让流式视频大模型拿捏「何时开口」

原文作者:机器之心

冷月清谈:

文章介绍了一篇 ACL 2026 论文 Response-G1,关注流式视频大模型在主动交互中的核心问题:模型不仅要看懂视频,还要判断当前证据是否足够、是否应该立即响应。现有方法常把视觉证据和用户问题中的响应条件隐藏在隐式表征中,导致模型容易过早回答、迟迟不答或被画面变化误导。

Response-G1 将这一问题转化为“证据—条件”的显式对齐:它用场景图表示视频中出现的物体、属性和关系,同时解析用户问题隐含的响应条件;再通过动态记忆库检索历史场景图,把相关证据提供给模型做触发判断。整个框架无需微调骨干模型,主要依靠结构化中间表示、检索增强和触发式提示完成“静默/响应”决策。

实验中,基于 Qwen3-VL-8B 的 Response-G1 在 OVO-Bench 和 StreamingBench 的主动式任务上分别取得 12.8% 和 15.1% 的提升,被动式任务也有稳定增益。消融实验显示,查询引导的场景图生成、时间戳编码和检索增强都对结果有帮助。文章认为,显式场景图让流式视频理解中的响应时机更可解释,也更便于调试。

怜星夜思:

1、你觉得“该不该现在开口”会成为未来视频大模型的核心能力吗?还是只是一个比较细分的研究问题?
2、场景图这种显式中间表示,会不会比端到端大模型更适合处理“证据够不够”的问题?
3、论文里提到无需微调,只靠场景图、检索和提示就能提升效果,这种路线的上限会不会比较低?
4、如果这种主动视频助手真的落地,你最担心它“太爱说话”,还是“关键时刻不说话”?

原文内容


随着多模态技术和大语言模型的发展,人类与 AI 的交互关系正在从「命令 - 执行」走向真正的共生。AI 将不再只是等待人类指令再执行的工具,而是与人类共处同一时空的主动智能体。


它们像人类一样持续地感知动态环境,基于环境理解和内部目标,主动向他人发起交互(例如主动提醒「杯子要掉了」或在关键时刻主动询问「需要帮助吗」)。


同时,视觉作为现实世界最丰富、最自然的感知媒介,是主动智能体理解外部环境的核心窗口。在这种持续的外部感知和响应判断下,视频的输入特征从「离线转为在线」。


换言之,智能体所承载的视频大模型(Video-LLM),不再是整段看完再作答的离线推理系统,而应像人类一样边看边判断:在响应条件不足时保持克制,在关键证据出现时果断响应交互。


因此,在这种流式主动交互场景下,视频大模型真正棘手的,不只是「能不能看懂某一帧」,还有「该不该在这一秒开口」。然而,要把「证据是否足够」做成稳定、可泛化的决策,现有方法往往仍把视觉证据与问题语义中的响应条件藏在隐式表征里,难以做到精细对齐和对「响应时机」的深刻理解。


为了解决这一痛点,来自西北工业大学、香港科技大学、清华大学等的研究团队在 ACL 2026 上提出了一种基于证据 - 条件结构化对齐的流式视频理解主动交互框架。该方法以显式场景图(Scene Graph)为统一表示,把流式观测到的「视觉证据」与用户查询所蕴含的「响应条件」进行显式建模,并结合记忆检索与触发式提示,在无需微调的方式下完成流式「静默 / 响应」决策。



  • 论文标题:Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding

  • 论文链接:https://arxiv.org/abs/2605.07575

  • 代码仓库:https://github.com/kadmkbl/Response-G1


      主动流式交互的裂缝:当证据与条件被「藏」在隐式表征里


      流式主动交互的关键难点并不只在于内容生成,还在于每一时间步都要思考一个底层的问题:当前累积的视觉证据,是否已经满足用户问题所隐含的响应条件?


      一旦这个判断依赖隐式的证据 - 条件理解,模型就很容易在「相似帧」之间摇摆:视觉上几乎一样,但「该不该说」的标签却可能相反。这也是许多需要帧级标注的训练路线的方法难以泛化的根源之一。


      而在无需微调的路线中,帧间差异阈值等基于规则的方法实现简单,却容易把「画面变化」误当成「语义条件满足」,从而忽略用户响应需求。另一方面,基于触发提示的方法(直接询问大模型是否在当前时刻响应)虽能更加理解响应需求,但现有工作仍未显式地构建证据与条件,对响应时机的理解缺少可核对的中间结构。


      Response-G1 的切入点因此非常直接:用户问题中的响应条件往往对应一个由物体、属性与关系构成的结构化期望场景,场景图为此提供了显式的证据对齐方式,让「证据是否足够」不再依赖隐式表征,而转由可解释的中间结构进行逐项核对。


      图 1. 流式视频理解中的主动机制对比


      Response-G1 总览:把「时机判断」变成可解释的图对齐问题


      Response-G1 将流程组织为三个彼此衔接、且都可视为「推理增强」的模块:在线查询引导的场景图生成(流式证据建模)、基于动态记忆库的场景图检索(证据 - 条件对齐),以及检索增强的流式触发决策(主动交互决策)。


      框架不改变骨干视频大模型的训练目标与参数更新方式,主要通过结构化中间表示与检索上下文,把模型的「响应判断」从黑箱里往外拽半步。


      • 在线查询引导的场景图生成:对以当前时刻为中心的流式视频片段,模型输出场景图节点(物体及其属性)与边(关系谓词),并以三元组集合形式表示。为抑制与问题无关的细节,生成提示中注入用户查询,使视频大模型优先抽取与问题相关的子结构,从而得到查询敏感、证据聚焦的图表示。


      图片


      • 基于记忆的场景图检索:为实现细粒度的「证据 - 条件」匹配对齐,框架维护随时间增长的记忆库,存储历史时刻生成的场景图。检索时,将各图的三元组线性化为自然语言短语并拼接,同时对用户查询解析得到响应条件图及其文本表示;二者经同一文本编码器嵌入后做均值池化,以余弦相似度衡量语义相关性,并取 Top-K 子图作为对齐证据上下文。



      • 检索增强的流式触发与回答:在每一需要决策的时间步,模型输入由视频帧嵌入、带时间戳前缀的检索场景图编码以及触发指令(例如「现在是否应该回答?仅回答 Yes/No」)共同构成。若判定为静默,则继续累积观测;若判定为响应,则在与交互决策一致的上下文中拼接原始问题,生成最终自然语言响应。


      图片


      图 2. Response-G1 框架概览


      实验结果:主动式大幅领先,被动式同步受益


      研究团队在主流流式视频理解基准 OVO-Bench 与 StreamingBench 上开展评估,并区分主动式(模型自主决定响应时刻)与被动式(响应时刻与提问时刻一致)子任务。实现上采用 Qwen3-VL-8B 作为模型骨干,并遵循既有工作对输入分辨率与帧采样策略的设置。


      实验结果显示,在主动式子任务方面,Response-G1 在开源流式视频大模型上提升显著:在 OVO-Bench 上,Response-G1 提升了 12.8%;在 StreamingBench 的 PO 子任务上,提升达 15.1%。在被动式子任务方面,Response-G1 也形成稳定增益。


      这表明,显式场景图不仅改善「何时说」,而且在有时空推理需求的用户问题上,也有助于「说得准」。


      表 1. OVO-Bench 上的性能对比(主动式子任务为 Forward Active Responding;其余子任务为被动式设定)


      表 2. StreamingBench 上的性能对比(主动式子任务为 PO;其余子任务为被动式设定)


      消融与流式主动交互案例


      消融实验表明:(1)引入基于场景图的检索增强可同步提升主动式与被动式流式视频理解的表现,而引入时间戳的场景图编码一定程度地提升了模型的证据理解。(2)在流式视频的场景图证据在线生成阶段,「查询引导」优于「目标引导」策略,后者可能诱发模型生成不存在的场景图三元组证据并导致过早响应问题。


      表 3. 消融实验(左:不同检索增强策略的有效性;右:不同证据生成引导策略的有效性)


      可视化案例展示了一个需要等待证据线索逐步显露的流式视频主动交互场景(用户提问:「一个穿着红色 T 恤的男孩在离开后做了什么事情?」)。


      结果表明,在时间「18:51」处,Response-G1 准确检索到与查询相关的场景图(即证据)并触发响应,而基线方法在整个视频流中均始终未能作出响应。


      图 3. 流式视频主动式交互可视化案例


      结语


      该研究的意义在于:它把主动交互流式视频理解里难以捉摸的「时机」问题,通过显式的统一的图表示,转写为更可解释、可调试的「证据 - 条件对齐」问题。


      在视频大模型逐步走向真实在线、主动交互的当下,这种结构化中间表示或许能为后续的多模态全能助手、长流式记忆与更复杂的人机协同,提供一个更可组合的底座。


      作者介绍


      本文作者马可(https://kadmkbl.github.io)、唐家祺(https://jqt.me)分别来自西北工业大学和香港科技大学的博士研究生,研究方向为多模态大模型与智能体。


      通讯作者是西北工业大学的郭斌教授(http://guob.org),长期从事普适计算、群智感知、具身智能及智能物联网等领域的研究。



      © THE END 

      转载请联系本公众号获得授权

      投稿或寻求报道:liyazhou@jiqizhixin.com

      说白了,无需微调就是“外挂流”。外挂强不强,要看本体和外挂配合得怎么样。Qwen3-VL-8B 本身能看视频,Response-G1 给它加了个证据小抄和开口裁判,所以效果涨了。上限可能没端到端联合训练那么梦幻,但胜在今天就能跑,不用先烧一炉显卡。

      3 个赞

      这个问题我选“都怕”,但怕的阶段不一样。早期产品我怕它太吵,像刚进群的热心网友;成熟以后我怕它在关键时刻装死。比较合理的设计应该允许用户调节风格,比如“安静模式”“安全优先模式”“社牛模式”——最后一个建议谨慎开启。

      2 个赞

      我反而更怕它太爱说话。因为日常生活里 99% 的场景都不是紧急事件,如果 AI 总是刷存在感,用户很快就会把它静音。最后真遇到危险,它说了也没人听。主动交互最难的不是“能不能说”,而是建立用户信任。

      1 个赞

      “该不该现在开口”听起来小,其实很要命。人类社交里不会看气氛的人都容易被嫌弃,AI 更是如此。你想象一下 AI 眼镜每隔十秒说一句“我观察到前方有一棵树”,那不就是赛博唐僧吗。所以我觉得这问题一点都不细分,是从玩具变成工具的必经之路。

      3 个赞