Yann LeCun的JEPA世界模型:14篇论文解构非自回归的AI之路

LeCun的JEPA世界模型放弃像素重建,专注于抽象特征预测,实现从图像到动作规划的端到端学习,为具身智能开辟新路径。

原文标题:Yann LeCun的世界模型路线图:14篇论文梳理JEPA演进史

原文作者:数据派THU

冷月清谈:

本文深入梳理了Yann LeCun主导的JEPA(联合嵌入预测架构)世界模型的发展历程,通过14篇关键论文,详细解读了JEPA如何从最初的理论构想,逐步演变为具备端到端推演和规划能力的完整框架。与主流大语言模型不同,JEPA放弃了像素级重建,转而在抽象特征空间中预测未来状态,以此构建能够模拟真实环境、进行推理和动作规划的世界模型。文章按照时间顺序,将JEPA的演进划分为五个阶段:从理论到图像验证、走向动态与跨模态、深入三维几何、接入动作与规划、底层重构与端到端演进。每个阶段都重点介绍了相关论文的核心思想、技术实现和实验结果。通过梳理这些研究,我们可以清晰地看到JEPA如何逐步克服静态图像、动态视频、三维几何等多种挑战,最终实现对物理世界的理解和控制,为具身智能的发展提供了新的方向。

怜星夜思:

1、JEPA 放弃像素重建,转而关注抽象特征。那么,在哪些场景下,保留像素级别的信息反而会更有优势?
2、V-JEPA 在视频理解任务中表现出色,大幅领先其他模型。你认为 V-JEPA 在处理视频数据时,最核心的优势是什么?未来还有哪些潜在的改进方向?
3、LeWorldModel 实现了完全端到端的训练,但文章也提到它在处理长视野任务时可能存在局限。你认为将语义信息融入隐式世界模型,对于提升长周期规划能力有多大的潜力?这种融合又会面临哪些挑战?

原文内容

图片
本文约5000字,建议阅读15分钟

放弃像素重建,绕开自回归:14 篇论文看透 JEPA 世界模型演进。


Yann LeCun一直在走一条与主流大语言模型截然不同的路。当行业焦点集中在模型参数规模的暴力扩展时,他将研究重心完全放在了世界模型上。


过去几周,V-JEPA 2.1、LeWorldModel 和 ThinkJEPA 等论文相继发布。


面对主流自回归模型在物理常识和多步规划上的局限,JEPA(联合嵌入预测架构)给出了另一种思路:彻底放弃底层的像素重建,直接在抽象的特征空间中预测未来状态。


这 14 篇关键论文,正是这套架构从理论走向现实的完整记录。


系统从处理单一的静态图像起步,逐步跨越视频与三维几何,最终接入动作变量,构建出一个具备端到端推演和规划能力的完整框架。


01 核心机制概述


理解 JEPA,需要先看清它试图解决的痛点。


现阶段的大型模型擅长捕捉文本模式,但缺乏对物理世界的常识认知,很难完成多步规划任务。


为此,LeCun 主张构建目标驱动的 AI 系统。


在这个系统中,世界模型扮演着核心角色。它负责模拟真实环境的运作规律,提前推演未来的可能状态,从而让系统具备推理和动作规划的能力。


JEPA 就是搭建这个世界模型的基础底座。


〓 目标驱动的系统架构


和以往的生成式自监督学习最本质的区别在于,JEPA 彻底抛弃了像素级重建。


现实世界的信息量极为庞大,系统不需要浪费算力去一比一还原输入数据的每一个细节。它的核心解法是在隐空间中提取抽象特征。


在处理视频连续两帧等成对数据时,架构的编码器会先将其转化为抽象表征。在这个提取过程中,背景噪声和无关细节会被直接剔除。


随后,预测模块只利用当前的抽象表征,去预测未来的抽象表征。


〓 JEPA 工作原理


为了应对现实世界演进中的不可预测变量,架构在特征提取阶段,编码器会主动丢弃那些高度不确定或嘈杂的信息。


不仅如此,架构还引入了隐变量。这个变量代表了当前状态下无法观测但会影响未来走向的潜在因素。


通过调整隐变量的值,模型就能推演出不同潜在因素作用下的多种未来走向。


02 阶段一:从理论到图像验证


在 JEPA 问世前,自监督视觉学习一直被像素重建(如掩码自编码器 MAE)和依赖数据增强的对比学习主导。


LeCun 打破了这一惯性,确立了一个绝对核心的原则:预测必须在抽象的表征空间中进行。


JEPA与H-JEPA:概念起点


JEPA 和 H-JEPA(Hierarchical JEPA)[1] 作为早期的概念起点,引入了层级化和多时间尺度的机制。


这不仅是为了解决单一尺度的预测问题,更核心的目的在于让模型具备更高维度、更长周期的状态推演能力。


这一阶段虽然偏向理论构想,但为后续具备规划能力的世界模型划定了清晰的理论边界。


I-JEPA:视觉领域的首次落地


I-JEPA(Image-based JEPA)[2] 是将理论转化为工程实现的关键节点。


它证明了在不依赖手工数据增强的情况下,系统依然能学到深度的语义表征,从而成为掩码自编码器之外的一种极具竞争力的可行路径。


此前的对比学习高度依赖色彩抖动、空间裁剪等手工设计的数据增强,引入了较强的归纳偏置。I-JEPA 完全摒弃了这种做法,核心在于引入了多块掩码策略。


整个 pipeline 基于 ViT 构建,分为上下文编码器、目标编码器和预测器三部分。


训练时,系统会先在图像里采样 4 个目标块(面积占 15%-20%,长宽比随机)。


接着,再采样一个面积更大(85%-100%)、比例方正的上下文块,并把两者重叠的部分严格剔除。


目标编码器的参数由上下文编码器的参数通过指数移动平均(EMA)更新而来 ;上下文编码器则处理剩余的可见上下文块。


一个轻量级的预测器接收上下文特征以及对应的掩码 token,在隐空间中预测目标块的表征。整个过程通过最小化预测值与真实目标值之间的 L2 距离来驱动。


〓 I-JEPA 方法流程图


掩码尺度的把控是这套设计的关键。如果只随机掩盖零散的 patch,模型极易通过局部的像素插值完成任务,无法学习到深层语义。


I-JEPA 通过大尺度目标块掩码,迫使模型去理解图像全局的语义结构。


由于系统只在隐空间中计算损失,无需解码还原高频像素细节,训练效率显著提升。预训练一个 ViT-Huge/14 模型,在 16 张 A100 显卡上仅需不到 1200 GPU 小时。


03 阶段二:走向动态与跨模态


在验证了图像领域的有效性后,架构的演进必然要面对现实世界中最核心的维度:时间与动态变化。


这一阶段的研究,将特征预测机制推向了更复杂的时空数据和跨模态任务。


MC-JEPA:引入动态理解


MC-JEPA(Motion-Content JEPA)[3] 是从静态图像走向动态理解的探索性尝试。


它通过在共享编码器中联合学习运动(Motion)和内容(Content)特征,初步验证了在隐空间中同时捕捉静态细节与动态变化的可行性,为后续处理高维度时空数据做好了铺垫。


V-JEPA:视频特征预测的验证


V-JEPA(Video-based JEPA)[4] 是架构演进路线上的绝对支柱。


处理视频数据时,如果沿用传统的像素级重建(如 VideoMAE 等方案),时空维度的增加会导致计算成本呈指数级爆炸。


V-JEPA 明确证明了,纯粹的特征预测完全可以作为视频自监督学习的独立目标,且无需依赖任何预训练图像编码器、文本对齐或像素重建。


整个 pipeline 将输入的视频片段切分为空间 16x16、时间跨度 2 帧的时空 token 序列。


与 I-JEPA 采用 L2 距离不同,V-JEPA 在隐空间中计算预测表征与真实目标表征之间的损失时,改用了 L1 回归,原论文指出这种方式在视频任务中更为稳定。


〓 V-JEPA 架构流程图


为了迫使模型真正理解动态世界,V-JEPA 设计了一套 3D 多块掩码策略。在训练中,系统会平均丢弃视频中高达 90% 的时空 patch。


为了防止模型通过相邻帧进行简单的时空插值“作弊”(信息泄漏),这些掩码块会贯穿视频的整个时间维度。


系统会混合使用短程掩码(采样 8 个小块,各占 15% 面积)和长程掩码(采样 2 个大块,各占 70% 面积)。


这种在高度信息缺失下进行的特征预测,使模型学到了极具通用性的视觉表征。在包含 200 万段视频的 VideoMix2M 数据集上预训练后,V-JEPA 展现出了惊人的泛化能力。


在冻结主干网络的评估协议下,V-JEPA 在高度依赖精细动作理解的 Something-Something-v2 任务上,大幅超越了之前所有的视频掩码模型,并拉开了与 DINOv2 等顶级图像基础模型的差距。


〓 V-JEPA 预测特征的可视化解码


在训练效率方面,由于彻底避开了像素解码的计算消耗,V-JEPA 比主流的像素重建视频模型快了约 2 倍。


此外,它还展现出极强的标签效率,在仅提供 5% 或 10% 标注数据的情况下,依然能保持稳定的微调表现。


在 CIFAR-10 和 Moving MNIST 上的基准测试表明,即便在轻量级设置下,EB-JEPA 依然能学习到高质量表征(CIFAR-10 线性评估准确率达 91%)。


Audio-JEPA:模态通用性的确立


在视觉与视频领域跑通后,Audio-JEPA [5] 进一步证实了这套架构的底层通用性。


它将特征预测机制迁移到音频频谱图上,通过引入时频感知掩码,让模型在隐空间中预测缺失的音频特征。


这一节点的成功,表明避免原始信号重建、在高度抽象的特征空间中进行局部到局部的预测,是一种可以跨越感官模态的通用学习法则。


04 阶段三:深入三维几何


从 2D 图像和视频跨越到 3D 几何空间,架构的演进面临着新的挑战。与排列在规则网格上的像素不同,3D 点云本质上是高度无序且不规则的。


传统的掩码自编码器强行重建原始的 3D 点云坐标,不仅计算成本高昂,还会让模型将算力浪费在拟合无意义的局部几何噪声上。


Point-JEPA:点云几何表征的高效提取


Point-JEPA [6] 是将 JEPA 专门适配到点云数据的关键尝试。


针对点云无序性带来的上下文块和目标块采样难题,它避免了在原始空间进行坐标和颜色的重建,转而在隐空间中进行特征预测。


〓 Point-JEPA 架构图


通过这种设计,Point-JEPA 成功绕开了原始点云数据中存在的冗余和噪声,证明了该架构在处理复杂几何表征时依然能够保持极高的效率。


3D-JEPA:更广泛的3D语义重塑


3D-JEPA [7] 进一步拓宽了架构在三维空间的适用范围,将应用场景从单一的点云数据扩展到了更广泛的三维特征学习。它标志着该架构已经成熟,可以作为处理完整 3D 语义的基础框架。


〓 3D-JEPA 流程图


在这个阶段,系统不再满足于提取局部的几何特征,而是致力于理解更宏观的三维空间结构,为构建更复杂的真实世界模型扫清了模态障碍。


05 阶段四:接入动作与规划


在解决静态和动态特征提取后,架构不可避免地要面对构建世界模型最核心的考验:理解动作如何影响物理环境,并据此进行多步推演。


这一阶段的研究标志着系统从被动感知正式跨入主动控制的领域。


ACT-JEPA:动作变量的联合预测


ACT-JEPA [8] 是 JEPA 走向完整控制系统的关键节点。此前的模型大多停留在对观测信号的隐空间预测,而 ACT-JEPA 引入了动作序列这一核心变量。


〓 ACT-JEPA 架构流程


具体实现上,系统不再单一预测未来的观测特征,而是将动作序列与隐式观察序列进行联合预测。


这种联合建模方式不仅让模型理解了环境会如何演变,更理解了特定的动作指令会如何干预并改变环境的走向。


引入动作预测后,世界模型的整体表征质量得到了显著提升,在多项控制任务中表现出了更高的任务成功率。这套机制也为后续更复杂的策略学习搭建了稳固的底层架构。


V-JEPA 2:具备零样本规划能力的显式世界模型


如果说 ACT-JEPA 是控制架构的雏形,V-JEPA 2 [9] 则是该系列中具有决定性意义的里程碑。


在这个节点,JEPA 正式演变为一个能够执行理解、预测与规划的显式世界模型。


V-JEPA 2 的核心突破在于其展现出的零样本机器人规划能力。在未经特定环境数据微调的情况下,模型能够在一个完全未知的物理环境中,利用一系列视觉子目标进行多步动作推演。


〓 V-JEPA 2 规划流程图


系统在隐空间中模拟出不同动作指令对应的未来状态,并从中筛选出能够达成最终目标的最佳动作路径。这种摆脱对特定场景数据依赖的规划能力,证明了基于隐式预测的世界模型在具身智能领域的巨大潜力。


06 阶段五:底层重构与端到端演进


随着架构在感知和控制领域的验证逐步收网,研究重心开始向两个方向聚拢:一是清理早期工程探索中遗留的冗余设计,回归数学本质;二是向着更复杂的端到端训练和长周期推理发起挑战。


LeJEPA:回归数学本质


早期的联合嵌入架构在很大程度上依赖指数移动平均、停止梯度等启发式技巧来防止模型训练过程中的表示坍塌。


LeJEPA [10] 直接从底层数学逻辑出发,引入了各向同性高斯正则化(SIGReg)。


这种优化目标能够主动约束隐空间的数据分布,彻底移除了复杂的教师学生网络架构和繁琐的超参数调度。整个计算流程被精简,让模型的并行训练变得更加纯粹和稳定。


Causal-JEPA:引入对象级掩码的因果推理


为了让系统超越表层的视觉关联,Causal-JEPA [11] 将掩码机制从基础的图像块升级到了对象级别。在训练过程中,模型必须根据环境中的其他对象来推断被掩盖对象的状态。


这种强制性的交互推理诱发了隐空间中的潜在干预机制。它不仅显著提升了系统在复杂场景下的反事实推理能力,还在智能体控制任务中实现了极高的数据效率——系统仅需极少的隐层特征维度即可完成精准规划。


V-JEPA 2.1:解锁密集特征与深度自监督


在建立动作规划能力后,V-JEPA 2.1 [12] 将重心放回了表征质量的极致打磨,属于该阶段重点拆解的核心工作。


它引入了密集预测损失,让可见的上下文标记和被掩盖的标记共同参与损失计算,从而大幅强化了模型对时空的精确定位能力。


与此同时,系统还在编码器的多个中间层级同步应用了深度自监督机制,迫使网络在较浅的层级就开始理解复杂的物理逻辑。


〓 V-JEPA 2.1 架构流程图


配合能够统一处理图像和视频数据的多模态分词器,该模型在短期动作预测和细粒度场景理解任务上确立了全新的性能基准。


LeWorldModel:纯粹的端到端世界模型


构建世界模型的难点在于如何保持特征空间的稳定,先前的方案往往需要拼凑多项辅助损失或依赖外部预训练的编码器。


LeWorldModel [13] 首次实现了完全从原始像素端到端稳定训练的极简架构。整个系统仅依靠两个目标驱动:下一步特征预测以及高斯正则化。


〓 LeWorldModel 架构图


这种轻量级的纯粹设计不仅大幅降低了工程复杂度,更让其在控制任务中的推演规划速度远超庞大的传统基础模型流水线。即使在没有任何辅助监督信号的情况下,系统依然展现出了对物理规律违和事件的敏锐感知力。


ThinkJEPA:融合语义思考的长周期规划


单纯的隐空间预测在处理长视野任务时,容易陷入局部的低级特征外推。作为路线图上的最新节点,ThinkJEPA [14] 代表了向复杂推理进发的探索方向。

它将视觉语言模型中蕴含的深层语义抽象和通用知识,巧妙地编织进隐式世界模型的预测路径中。


〓 ThinkJEPA 整体架构图


有了语义维度的方向引导,系统不仅能精准捕捉短期的物理动态,更能在长周期的跨度下完成复杂的逻辑链推演与任务统筹。


这为真正意义上具备高级认知和常识推理的通用智能体指明了演进路径。


结语


从图像上的隐空间预测,到扩展至视频与三维空间等多模态数据,再到最终实现端到端的动作规划,JEPA 架构已经走出了早期自监督特征提取的范畴。


面对主流自回归模型在物理常识和长序列规划上的局限,彻底放弃像素重建、直接在抽象空间中推演环境演变,被证明是一条切实可行的路线。


这套机制让系统跳出了单纯的模式匹配,开始真正理解物理世界的运作规律,并具备了执行复杂决策的能力。

参考文献

[1] https://openreview.net/pdf?id=BZ5a1r-kVsf

[2] https://arxiv.org/abs/2301.08243

[3] https://arxiv.org/abs/2307.12698

[4] https://arxiv.org/abs/2404.08471

[5] https://arxiv.org/abs/2507.02915

[6] https://arxiv.org/abs/2404.16432

[7] https://arxiv.org/abs/2409.15803

[8] https://arxiv.org/abs/2501.14622

[9] https://arxiv.org/abs/2506.09985

[10] https://arxiv.org/abs/2511.08544

[11] https://arxiv.org/abs/2602.11389

[12] https://arxiv.org/abs/2603.14482

[13] https://arxiv.org/abs/2603.19312

[14] https://arxiv.org/abs/2603.2228

编辑:文婧


·



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU



V-JEPA这个3D多块掩码策略,我觉得有点像“盲人摸象”,故意遮住一部分,让模型自己去猜,去理解整体的结构。在时间维度上贯穿遮挡,就是为了防止模型偷懒,只看相邻帧的信息。这种策略在其他序列数据上也能用,比如自然语言处理,可以mask掉一些词语,让模型预测,BERT就是这么做的。但具体mask的比例和方式可能要根据数据特点调整。

个人认为,LeWorldModel这种端到端模型的最大挑战在于其黑盒性。由于模型直接从像素学习,缺乏明确的中间表示,因此难以理解模型的决策过程。这在安全攸关的应用中是一个很大的问题,例如自动驾驶。为了解决这个问题,可以尝试引入一些可解释性技术,例如注意力机制可视化、梯度分析等,以帮助我们理解模型的内部运作机制。此外,还可以尝试将一些先验知识融入模型中,以提高模型的可解释性和鲁棒性。

这个问题很有意思!我觉得JEPA和人类认知确实有共通之处。我们的大脑也不是一味地记录所有细节,而是会提取关键信息,形成对世界的简化模型。然后,我们基于这些模型预测未来,指导行动。比如,我们看到红灯会停下来,不是因为我们记住了所有红灯的历史,而是因为我们抽象出了“红灯=停车”的规则。 这样看来,JEPA其实是在模仿人类认知的底层机制,只不过是用算法来实现。

有没有可能 V-JEPA 只是更擅长学习这个数据集的 bias ? 感觉现在很多模型在特定数据集上表现好,换一个数据集就不行了。需要更多实验来验证 V-JEPA 的泛化能力。

我从另一个角度来考虑,像素重建就像是给机器海量刷题,题海战术固然有效,但机器学到的更多是“套路”,缺乏真正的理解。而JEPA则更像是让机器通过观察和思考来理解世界的运作规律,虽然初期效果可能不如题海战术,但潜力更大,更有可能实现真正的智能。

优势很明显啊,JEPA避免了对不必要细节的计算开销,专注于学习更高层次的语义信息,训练效率更高,而且学到的表征更具泛化性。缺点可能在于,抽象特征的粒度选择不好把握,太粗糙可能丢失关键信息,影响下游任务的精度。