从CoT到CoF:视频生成与理解如何通过“帧链”实现显式推理?

CoF让视频帧间不再跳变!显式思考,突破传统帧间一致性瓶颈,开启视频生成新范式。

原文标题:CoT 之后,CoF 如何让帧间逻辑从「隐式对齐」变成「显式思考」?

原文作者:机器之心

冷月清谈:

大语言模型(LLM)因引入思维链(CoT)推理在复杂任务上表现突出,但其高消耗和“真实推理”争议也日益显现。受CoT启发,视觉领域提出了帧链(CoF)概念,旨在解决视频生成与理解模型中长期存在的帧间一致性(temporal consistency)不足问题。传统的视频模型倾向于依赖隐式特征对齐和平滑过渡来维持帧间连贯,但在复杂场景下往往难以保证跨帧逻辑的完整性。

CoF的核心在于将CoT的多步推理思想移植到视觉领域,让视频模型通过逐帧生成的方式进行“显式思考”。Google DeepMind的团队首次从理论层面引入CoF,并指出其大规模视频生成模型(如Veo 3)正向通用视觉基础模型演进,如同LLM在NLP中的作用。这些模型在训练中结合多样化视频数据和语言指令,使得它们能以帧为单位,通过连续演化固化推理逻辑,从而在无需微调的情况下完成图像分割、边缘检测乃至物理建模和迷宫求解等复杂任务。

CoF强调通过显式语义推理链,促使模型真正“思考”每一帧的逻辑演变,而非仅仅连续补全细节。这种机制显著提高了模型的推理能力和跨帧一致性,有望成为解决视频模型时间连贯性的关键新范式。学术界也出现了多种显式利用帧级推理链的技术方案,进一步验证了CoF方向的潜力。

怜星夜思:

1、CoF听起来很棒,但实现真正的“显式思考”会不会对算力要求特别高?而且在追求效率的C端场景里真的能落地吗?
2、文章提到了CoF对视频生成和理解的帮助。除了这些,CoF还能在哪些领域发挥独到的作用?比如视频内容审核、交互式AR/VR之类的?
3、CoT的“并非真实推理”这一点让人深思。CoF在视频领域的“显式思考”会不会也面临同样的质疑?我们怎么定义机器的“思考”?视频的“帧链”是不是比语言更容易证明其内部逻辑呢?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

引言延长 CoT 曾在语言模型中显著提升了推理能力,但显式多步推理耗费 token 多、时间长,在高频实时响应的 C 端 agentic 场景中难以满足需求。同时随着 CoT 在提高语言模型推理能力上的红利逐步释放后,研究者开始尝试将这一思路延伸到视觉领域:CoF(Chain-of-Frames)提供了一种潜在的帧链推理框架,有望进一步改善视频生成与理解中的帧间一致性问题。


目录

01. 帧间一致性不足,CoF 为视频生成和理解模型带来新思路?

CoT 只是「语言的表层叙事」,而非真正的推理?CoF 如何把「语言的思维链」转译为「视频的帧链」?...

02. 帧级语义显式融入能否成为解决视频模型 temporal consistency 的关键?

CoF 为何被认为可能成为视频生成模型的「新范式」,它相较传统帧间一致性优化方法的优势如何?从 CoF-Data 到 VChain,研究者如何把「推理链」嵌进每一帧画面?...

03. CoF 前,视频帧间一致性如何保障?

在 CoF 出现之前,视频模型靠什么维系「帧间一致性」?...

01  帧间一致性不足,CoF 为视频生成和理解模型带来新思路?

1、近年来,大语言模型由于引入了 CoT 推理而在复杂任务上取得了较为显著的突破。然而,也有研究者陆续质疑 CoT 的本质和可持续性。

2、今年 7 月,有研究者指出 CoT 更像是一种语言表层的连贯叙事,而非真实的内在推理,并认为 CoT 更多是「对奖赏函数的适应性生成」,而非模型的真实思考过程。[2-1]

① 与此同时,LLM 在推理任务上依赖 CoT 的可监控性方案也被证明是脆弱的。

3、以上观点反映出对 CoT 范式的普遍担忧,即 CoT 虽然能在多步推理题上提高准确率,但其作为推理透明度或模型内在机制的指示作用并不可靠。

4、在这种唱衰 CoT 的大背景下,视觉领域的相关研究者提出了与 CoT 类似的「帧链 CoF」(Chain-of-Frames)概念。它借鉴了 CoT 的思想,但针对具有时间连续性的视觉数据。

5、过往视频生成与理解大模型生成式视频模型由于逐帧生成的特性,往往难以保证帧间一致性(temporal consistency),尤其在复杂场景中跨帧逻辑容易出现断裂。传统方法主要依赖平滑过渡和隐式特征对齐,但在复杂场景中仍难以保证跨帧的逻辑连贯性。

6、今年 9 月,Google DeepMind 团队发表论文首次从理论层面引入了 CoF 概念。他们认为,大规模训练的视频生成模型(如 Veo 3)正在成为通用视觉基础模型,类似 LLM 在 NLP 的角色;而生成式视频模型天生具备逐帧生成的结构,正适合通过帧链式推理来提升帧间一致性。[2-2]

① 具体而言,CoF 让视频模型「观看即思考」,它们不仅填充视觉细节,更通过每一帧的连续演化固化推理逻辑。

② 研究者表明,LLM 通过顺序的文本步骤分解推理过程,而视频模型在时空连续生成内容,每一帧都成为动态过程中的一步推理,形成了帧链推理结构。

③ 经研究者测试,Veo 3 等模型不仅能在无微调条件下完成图像分割、边缘检测等感知任务,还在物理建模(如浮力、反射)和复杂逻辑(如迷宫求解)等任务上表现优异。

7、CoF 强调显式的语义推理链,让模型「思考」每一帧而不仅仅是连续补全帧间细节。[2-3]

DeepMind 研究团队强调,Veo 3 等视频模型是在大规模多样化视频数据和语言指令提示的联合训练下获得这些能力的。它们并未针对每项任务进行专门标注或微调,而是像视觉领域的 GPT 一样,通过提示引导生成。

② 以上的设计使得模型本身具有强大的泛化能力,既可以通过一套简单的自然语言指令就能驱动模型完成各种任务,无需为每个任务训练不同的模型。

02 帧级语义显式融入能否成为解决视频模型 temporal consistency 的关键?

1、CoF 利用逐帧生成的方式,为视频模型提供了一种天然的时序推理框架。它将 CoT 的多步推理思想移植到视觉生成领域,使视频模型能够以帧为单位进行推理,从而更好解决视频生成与理解大模型的帧间一致性(temporal consistency)问题。

① 与传统依赖隐式特征对齐或平滑过渡的方法不同,CoF 通过显式推理链确保每一帧都遵循逻辑演化,减少跨帧不连贯和细节丢失。

2、以上机制的核心逻辑在于,将帧级语义信息显式融入视频模型,从而显著提高模型的推理能力和跨帧一致性。

3、除了 DeepMind 提出的 CoF 概念外,近期学术界也出现了多种显式利用帧级推理链的视频理解生成技术方案。它们通常引入帧选择、链式推理追踪或关键帧指导等机制,将逻辑推理嵌入视频处理流程。...


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

我觉得这就像当年高分辨率视频刚出来的时候,大家也觉得根本跑不动,但现在不是人人都能拍 4K 视频了吗?CoF作为一种新的范式,初期对算力要求高是必然的。但随着硬件的进步和算法的优化(比如模型蒸馏、更高效的推理引擎),它肯定会慢慢走向 C 端。想想看,如果你的手机能直接生成逻辑连贯、画面稳定的小短片,那用户体验简直是质的飞跃,这点投入是值得的!

“真实思考”?AI会饿吗?会谈恋爱吗?不会,那凭什么叫“思考”?:winking_face_with_tongue: 机器嘛,给它一套规则,它就按规则办事,你让它连贯,它就努力去连贯。CoF无非是把“连贯”这个目标拆解成一帧一帧的小目标,然后让AI一个一个去完成。就像你写代码,总不能说编译后CPU真的“理解”你在干嘛吧?只要输出结果是对的,我们就说程序跑得好。视频帧链是不是更容易证明逻辑,我觉得是,毕竟画面在那摆着,一眼看穿对不对。总不能AI说一个苹果先从树上掉下来,然后又飞回树上吧?那种“思考”再炫酷我也不能认。说白了,就是个高阶的“找规律填空”游戏。

关于“CoF的真实思考”问题,这确实触及了人工智能的深层哲学议题。CoT被质疑并非真实推理,主要因为它可能只是对训练数据模式的「自适应生成」,而非具备内在的因果理解。CoF在视频领域通过「显式帧链」来固化逻辑,表面上看起来更直观,因为视频呈现的是具象的物理世界演变。从物理世界的可验证性来看,如果模型生成的视频能完美遵循物理定律、对象交互逻辑,那其“思考”的“真实性”或许更容易被人类直观接受。然而,这依然可能是一种复杂的模式拟合,而非真正的“理解”。我们定义机器“思考”,可能需要超越图灵测试的表象,更深入地探究其内部表征和推理机制是否与人类认知有结构性相似。

CoF啊,这不就是让机器有了“预判”和“复盘”的能力吗?我觉得以后玩游戏的时候,NPC的AI会变得超真实,它们能根据你之前的动作序列“推测”你下一步想干嘛,然后给出更有逻辑的反馈,而不是傻乎乎地重复操作。还有那种剧情式互动小说或者游戏,你不再是单纯地选择选项,而是模型根据你的输入和历史帧(也就是你之前的选择和行为)来“推理”剧情的后续发展,每次玩都能有不一样的“导演剪辑版”结局,想想就刺激!

针对“CoF的拓展应用”,我认为除了生成和理解,它在多模态AI中具有巨大潜力。譬如,在视频内容审核方面,CoF的显式帧链推理能力可以帮助模型追踪画面中物体行为的逻辑性与合理性,而非仅仅识别静态图像特征。这对于识别复杂的违规行为(如煽动性 sequence、隐晦的符号化表达)将更为有效。在交互式AR/VR领域,CoF能够构建更连贯、更富有物理逻辑的虚拟世界与真实世界的交互,例如预测用户手势的逻辑下一帧动作,或者保证虚拟物体与真实环境的遮挡、碰撞等物理关系在时间维度上保持一致,从而增强沉浸感与真实感。更进一步,还可以应用于机器人操作,让机器人通过“观察-思考-行动”的链式推理,实现更智能、更精细的任务执行。

CoF这思路,感觉就是让视频活起来了!除了你说的那些,我甚至能想象到它在电影后期制作上的革命性作用。比如,自动补全因为拍摄失误导致的穿帮镜头,或者根据剧本自动生成过渡场景,省去大量人工调整帧间细节的繁琐。在安防监控领域,它不光能识别出画面里有什么,还能“看懂”事件的发生发展逻辑,比如识别出异常行为链,而不是仅仅识别出一个可疑人物。想象一下,未来家里的智能摄像头能在小偷准备撬锁前就预测到他的意图并报警,而不是等他已经把东西偷走了才触发警报,那不是酷毙了!

哈哈,你提到了“并非真实推理”,我觉得这个讨论有点像“鸡生蛋还是蛋生鸡”的问题。对于我们搞工程的来说,“思考”的定义没那么玄乎,只要模型能给出符合逻辑、能解决问题的输出,我们就可以认为它在一定程度上“思考”了。CoF让视频模型把推理步骤“掰开放到台面上”看,每一帧都是一个决策点。这种“显式”的好处在于,我们更容易debug,更容易发现它在哪一步“想错了”。相比语言的抽象,视频的帧链是具象的物理世界演变,确实更容易通过人眼观察来验证其逻辑连贯性,比如一个球滚下了坡,我们能直观看到这个过程是否符合物理事实。所以,即使不是“真实思考”,能解决问题、能被校验就是好“思考”。

算力?C端?哥们儿,你这是在问“吃得饱”和“吃得好”哪个更重要吗?现在大家都在冲 AIGC 的酷炫效果,算力那是“投入成本”,只要效果够炸裂,资本才不会在乎多烧几块钱显卡呢。至于C端落地,emmm… 咱就说,以前PS抠图多费劲,现在一键抠图,背后还不是一堆算法和算力在跑? 等CoF真能让视频“思考”了,谁还管它背景得多烧钱?反正付钱的不是我哈哈。

关于 CoF 对算力的要求,“显式思考”确实意味着模型需要处理更多的中间推理步骤和状态,这无疑会增加计算负担。尤其在训练和复杂推理环节,对 GPU 资源和内存带宽的需求会显著提升。对于 C 端实时应用,例如短视频生成或直播滤镜,其核心挑战在于如何在保证推理质量的同时,优化模型结构(如剪枝、量化)和推理框架,以达到低延迟和高吞吐。现在也有些研究在探索轻量化的推理链设计,希望能有所突破。