DINO-world:Meta发布高效视频世界模型,探索智能体未来预测新范式

DINO-world:Meta新视频世界模型,高效预测未来。

原文标题:LeCun出手,造出视频世界模型,挑战英伟达COSMOS

原文作者:机器之心

冷月清谈:

Meta 研究人员提出 DINO-world,旨在解决视频世界模型训练中的数据获取、计算资源消耗和模型评估等核心挑战。这个强大的通用模型通过在冻结的 DINOv2 视觉编码器潜在空间中预训练预测器,然后利用少量动作数据进行微调,实现了高效的未来帧预测。其优势在于将视频预训练与基于动作的有条件微调解耦,避免了昂贵的像素级建模,并直接利用 DINOv2 强大的语义和几何理解能力。DINO-world 在减少资源消耗的同时,获得了显著优于现有模型的性能,尤其在密集预测和直觉物理任务上表现出色。大规模无监督预训练的有效性在规划任务中也得到了验证,标志着通用视频世界模型的重要进展。

怜星夜思:

1、DINO-world 这种高效的视频世界模型如果应用在自动驾驶领域,除了文章提到的预测未来场景,你觉得它还能带来哪些更深层次的突破?比如,它能否帮助自动驾驶系统在极端或复杂情况下做出更接近人类直觉的决策?
2、文章提到 DINO-world 避开了像素级建模,转而在潜在空间中进行预测,认为这对于大多数下游任务来说并非必要。那么,在你看来,未来 AI 视频理解和生成领域,像素级建模和潜在空间建模这两种路径会如何发展?它们各自更适合哪些场景呢?
3、LeCun 将世界模型视为通向人类智能的核心路径。如果未来世界模型真的能精确预测我们生活的方方面面,除了技术应用上的便利,你认为它还会带来哪些深远的社会或伦理问题?我们应该如何应对这些潜在的挑战?

原文内容

机器之心报道

编辑:冷猫、陈陈


2018 年,LSTM 之父 Jürgen Schmidhuber 在论文中( Recurrent world models facilitate policy evolution )推广了世界模型(world model)的概念,这是一种神经网络,它能够根据智能体过去的观察与动作,预测环境的未来状态。


近年来,世界模型逐渐受到大家的关注,当然也包括深度学习三巨头之一的 Yann LeCun,他将世界模型视为通向人类智能的核心路径。


然而,训练出有效的世界模型仍面临诸多挑战。


首先是数据问题:大规模、高质量的视频数据集获取成本高昂,尤其是在包含动作标注的情况下。目前世界模型的成功应用仍然局限于特定领域,如自动驾驶或电子游戏等。


其次,任务本身也非常困难:在无约束、部分可观测的环境中,准确建模物理规律与行为仍是一个尚未解决的问题,即使只考虑短时间尺度也是如此。目前最先进的基于像素的生成模型对计算资源的消耗极其庞大,例如 COSMOS 的训练耗时高达 2200 万 GPU 小时。


更令人担忧的是,这种算力可能被浪费在无关紧要的细节上。比如,在自动驾驶系统中,为了预测未来场景而去建模每一片树叶在风中的精确运动,并无必要。因此,以合适的抽象层级建模环境,对于提升世界模型的效率与效果至关重要。


最后,如何评估预训练的视频世界模型本身也是一大难题。


为了解决上述问题,来自 Meta 的研究者提出了一个强大的通用视频世界模型 DINO-world,用于预测未来帧。在实现方法上,DINO-world 在冻结的视觉编码器(如 DINOv2 )潜在空间中预训练视频世界模型,随后再通过动作数据进行后训练,以实现规划与控制。


  • 论文地址:https://arxiv.org/pdf/2507.19468v1

  • 论文标题: Back to the Features: DINO as a Foundation for Video World Models 


这一方法具有多个优势:


  • 将视频预训练与基于动作 - 条件的微调解耦,可以利用大量未标注的视频学习通用知识,从而显著降低对标注数据的需求;

  • 训练潜在世界模型,避开了像素级建模带来的挑战,而像素级建模对大多数下游任务来说并非必要;

  • 冻结的编码器 DINO 能直接提供强大的语义和几何理解能力,加速了学习过程,并避免了同时训练编码器与预测器所带来的技术复杂性。


此外,该研究还引入了一种更高效的世界模型架构,相比当前最先进的模型,在训练与推理阶段都显著减少了资源消耗。


在一个包含约 6000 万条未经清洗的网络视频的大规模数据集上训练预测器,使其能够获得可以良好迁移到不同领域的通用特征。


在 VSPW 分割预测任务中,当预测未来 0.5 秒发生什么时,模型的 mIoU 提高了 6.3%,显著优于第二佳模型。在对动作数据进行后训练并在规划任务上进行评估时,实验结果进一步验证了大规模无监督预训练的优势。


方法介绍


图 1 概述了 DINO-world 主要组件,包括帧编码器(frame encoder)和未来预测器(future predictor)。


帧编码器


当今几乎所有世界模型都不再直接建模像素,而是基于视频块(video patches)的潜在表示进行建模。以 V-JEPA 为例,它包含一个编码器和一个预测器,这两个组件是联合优化的。


与此不同,本文选择使用专为表征学习而设计、并通过自监督训练的基础模型 DINOv2 对视频帧进行编码。


在这种潜在空间中进行建模显著降低了训练预测器所需的计算成本。实际上,本文成功实现了参数量少于 10 亿的世界模型的有效训练,而当前最先进的生成式模型(如 COSMOS)的参数规模可高达 120 亿。


预测器架构和训练


架构。本文将预测任务建模为一个解码问题,并将预测器设计为由 N 个残差预归一化交叉注意力块堆叠而成的结构。


为了预测在坐标图片上的未来状态,本文从一个可学习的嵌入中初始化一个查询 token图片。在每个模块中,查询 token 会对所有历史 patch token 构成的键值对执行交叉注意力操作,之后再接入一个 MLP 模块。


图片

在最后一个模块之后,通过一个线性映射将查询 token q 投影为预测的 patch token。


位置编码。在上述建模形式中,查询向量 q 和上下文特征 x 并不携带关于其在视频中位置的信息。为了使模型能够理解 token 之间的时空关系,本文在多头注意力机制中引入了旋转位置编码(RoPE)。


具体而言,本文将注意力头的维度 Dₕ 分成三部分,分别对每个 token 的时间坐标、水平坐标和垂直坐标进行编码。


对于空间坐标 (i, j),采用定义在 [−1, +1]² 网格上的相对位置表示,从而确保输入分辨率的变化不会影响 patch 之间的相对距离。


而对于时间坐标 τ,采用以秒为单位的绝对时间戳,使得模型能够区分高帧率与低帧率的序列,并具备对更长视频进行外推的能力。


训练目标。为了便于并行化,本文采用「下一帧预测」作为训练目标,即令 t′ = t + 1,并使用 teacher forcing 策略。在给定 T 帧的序列下,关于第 t+1 帧的查询只能访问到第 t 帧及之前的 patch token。对于参数为 θ 的预测器,其训练目标如下:


图片

相比之下,掩码重建类的损失(如 V-JEPA 或 DINO-Foresight)仅对掩码位置的 token 计算损失,这些 token 只占处理总量的一小部分。 


可变帧率(Variable FPS)。对于每段视频,本文从预设范围 [Δτ_min, Δτ_max] 中均匀采样 T−1 个时间间隔,并通过累加这些间隔以及一个随机起始点来生成 T 个时间戳。


这样一来,解码出最接近的帧及其实际时间戳用于训练。该方法确保了模型在训练时能够接触到均匀分布的时间间隔,从而具备更强的时间泛化能力。


动作条件微调


本文提出的视频世界模型可以通过自监督的方式,在大规模无标注视频数据集上进行训练。然而,许多下游应用往往涉及某种条件信号,例如智能体的动作或语言指令,而这类数据通常较为有限。


本文关注的是以观测 - 动作对 (v_t, a_t) 表示的智能体轨迹。


在预训练的视频世界模型基础上,本文提出了一种简单的适配方法,用于将预测第 t+1 帧的过程与当前动作 a_t 相结合。


具体而言,他们加入了一个动作模块,利用对应的动作更新查询向量,其更新方式为:图片。这些动作模块可以初始化为恒等映射(identity),并在一个小规模的动作条件轨迹数据集上进行训练。可选地,视频世界模型本身可以保持冻结,仅训练动作模块,以缓解过拟合风险,并实现基础模型在不同任务中的泛化。


实验结果


密集预测任务


本文在 Cityscapes、VSPW 和 KITTI 数据集上进行了评估。


评估类型包括:短期预测,即预测约 200 毫秒后的帧;以及中期预测,目标时间点为 0.5 秒后。


表 1 结果表明,DINO-world 世界模型优于像 V-JEPA 这样的联合预测架构,也优于像 COSMOS 这样的生成模型。DINO-Foresight 在 Cityscapes 和 KITTI 上略微占优,这归因于其在驾驶视频上的领域特定训练。


然而,DINO-world 在多个评测基准上表现稳健,验证了这一范式的有效性:在冻结的自监督学习编码器基础上训练潜在空间的世界模型。事实上,相较于 V-JEPA,本文预测的特征质量更高;相较于 COSMOS,本文对视频动态的建模也更为准确。


表 1:密集预测。当前表现与预测表现之间的差距越小,说明世界模型越强。 


直觉物理(Intuitive physics)


本文采用了三个直觉物理测试基准:IntPhys 、GRASP 和 InfLevel 。并基于模型的预测定义了一个惊讶分数(surprise score),用于衡量模型输出与预期物理行为的偏差。


从表 2 的结果可以看出,所有在大规模数据集上训练的世界模型均表现出一定程度的物理理解能力。DINO-world 的表现与使用更大编码器的 V-JEPA ViT-H 相当。DINO-Foresight 在 IntPhys 和 GRASP 上的相对劣势,可归因于其训练域未包含合成视频。COSMOS 在相对简单的 IntPhys 任务中表现几乎完美,但在另外两个任务上明显不足。


表 2:直觉物理测试基准,报告了所有视频类别的平均相对准确率。


实验表明,潜在空间世界模型在性能上具有显著优势,同时也凸显了大规模预训练的重要性。


动作条件微调与规划评估


本文以预训练的基础模型为起点,在每个环境的离线轨迹上对动作条件模型训练 25 个 epoch,使用帧数 T = 4、分辨率为 224 像素的视频片段。


作为对比,本文还训练了两个模型:一个是仅训练动作模块、冻结其他所有参数的模型,另一个则是从头开始训练的模型。


表 4 报告了每个环境下、512 个测试回合中的成功率。主要发现是,与从零训练相比,大规模预训练显著提升了模型性能。作者预计,在更复杂、与预训练数据分布更接近的环境中,这一性能提升将更加明显。


表 4:规划评估。规划器在动作条件世界模型的潜在空间中展开候选轨迹并进行优化,其成功率如表所示。


更多实验细节、消融实验,请参阅原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

如果世界模型真的能预测生活中方方面面,那最直接的社会伦理问题就是隐私泄露与数据滥用。模型的强大预测能力建立在海量数据之上,这些数据可能包含了我们最私密的行为模式、消费习惯、甚至健康状况。预测能力越强,就越容易被用于精准营销、社会信用评级,甚至更隐蔽的操控。此外,还可能引发‘预测性社会’的焦虑,人们会不会因为被预测出某种倾向就失去选择自由?‘命运’是否变得可计算?以及,谁来拥有和控制这些预测模型,他们的权力边界在哪里,也是一个巨大的挑战。

我觉得没大家想的那么悲观。任何技术都是双刃剑。世界模型如果真能预测生活的方方面面,它肯定也能带来巨大的社会效益。比如在灾害预警上,能更精准地预测自然灾害的发生和影响范围,提前疏散人群;在医疗领域,能预测疾病的进展和治疗方案的效果,实现更个性化的健康管理。至于伦理问题,更应该在技术发展初期就建立健全的法律法规和道德规范,确保技术向善。我们需要的是透明度、可解释性和问责机制。与其担忧,不如积极地引导和规范它的发展,让它成为我们应对复杂世界、提升福祉的工具。

针对 DINO-world 在自动驾驶中的实际影响力,我认为它最大的贡献在于提升了决策和规划的鲁棒性与前瞻性。通过无需像素级建模但能准确预测高层次语义信息的能力,自动驾驶系统可以在更复杂的交通场景中,提前预判其他车辆、行人甚至非预期事件的未来轨迹和意图,从而争取更多决策时间,提高安全性。例如,它能帮助车辆更好地理解“加塞”行为的早期信号,甚至能预测交通事故的连锁反应,而不仅仅是识别当前物体。这比传统的基于规则或短期预测的方法有了质的飞跃。

关于DINO-world所采用的潜在空间建模与传统的像素级建模路径,我认为未来的发展将是互补而非完全替代。像素级建模的优势在于其无损的细节捕捉能力,这对于需要精准像素级输出的生成任务(如高清视频生成、图像修复)仍至关重要。然而,正如文中提到的,其计算成本极高,且在许多预测或理解任务中,过度的像素细节反而会成为噪音。潜在空间建模,如DINO-world所示,其核心在于学习数据的抽象表征,抛弃了任务无关的像素冗余,显著提升了效率和泛化能力。其适用场景在于需要高层次语义理解、事件预测和决策规划的任务,对资源敏感,且不强制要求像素级输出的领域(如机器人控制、自动驾驶感知)。未来,我们可能会看到结合两者优势的混合模型,初期在潜在空间进行高效预测,后期再根据需要‘精细化’到像素层面,以达到兼顾效率与细节的目标。

说白了,就是‘要细节还是要效率’的哲学问题嘛!像素级就像你每天把所有看过的东西都用8K录下来,然后还要每个像素都分析一遍,不疯也要算力爆炸。潜在空间建模就高级多了,它只记关键概念、关键变化,大脑里跑的其实是图像的‘元数据’,哪个重要记住哪个,不重要的直接丢弃。这不就是‘活得通透’和‘活得累’的区别吗?AI 也学会了佛系建模了!我猜以后大部分模型都会往‘通透’方向发展,毕竟没有人家的算力,只能走‘抽象大师’路线了。

楼上说得有点夸张了哈。DINO-world 确实是往前迈了一大步,尤其是它的高效性和对语义的捕捉能力。但在自动驾驶这种对安全要求极高的领域,‘预测未来’四个字听着很悬,实际上可能只是在概率上提升了预测准确率。它能不能精准预测‘黑天鹅事件’?比如突然有物体从天而降?或者天气突变?而且,模型预测再精准,也得跟车辆的控制系统无缝衔接。实际落地之前,还有海量的 Corner Case 和极端场景需要验证。它能帮助辅助决策,但要完全代替人类,路还长着呢。

哎呀,这不就是《少数派报告》里的情景嘛!以后你可能一出门就被AI预测出‘高概率在五分钟后闯红灯’,然后直接给你罚单。或者你打开约会软件,对面的人不是人,而是AI根据你的喜好模式预测出来的‘完美伴侣’。再过几年,连你午饭吃啥、晚上睡觉是不是会打呼噜都能被精准预测。那生活还有什么惊喜可言?每天都像是被设定好的剧本。可能唯一的乐趣就是努力打破AI的预测,证明‘我命由我不由AI’了,哈哈!

我觉得这就像‘素描’和‘油画’的区别。‘像素级建模’就像油画,要一丝不苟地画出所有细节,每个颜色、每条线都得精准,所以耗时耗力,出来的作品确实细节满满。但‘潜在空间建模’就像素描,它抓住的是事物的轮廓、结构和关键点,把不重要的细节都抽象掉了,这样画得快,也能让人很快理解意思。未来嘛,如果只是想快速知道个大概,比如‘前面有车要变道’,那素描就够了;但如果想搞个电影特效,那肯定还是得油画的精细度。所以,看你用在哪儿了,追求效率还是极致细节。

哇,DINO-world 这种能‘看’到未来的能力,简直是给自动驾驶安了个‘水晶球’啊!你想想,以后我的车可能不只是知道前面红灯,它还能预测到旁边那辆车想换道、前面路口有小孩突然冲出来!这不仅仅是预测帧,而是预测‘意图’和‘事件’。以后堵车可能都知道为啥堵、啥时候能通了。这太牛了,简直就是给自动驾驶装上了‘第六感’,感觉离‘钢铁侠贾维斯’那种高级AI更近了一步!