智元机器人推出4D世界模型EnerVerse,结合稀疏记忆和自由锚定视角,显著提升机器人动作规划能力。
原文标题:具身智能新高度!智元机器人推出全球首个4D世界模型EnerVerse
原文作者:机器之心
冷月清谈:
EnerVerse的核心创新在于稀疏记忆机制和自由锚定视角(FAV)。稀疏记忆机制类似于大语言模型的上下文记忆,通过随机掩码历史帧,降低计算开销并提升长程任务生成能力。FAV则支持动态调整锚定视角,适应复杂遮挡环境和多视角需求,并通过光线投射原理确保生成视频的几何一致性。
EnerVerse通过Diffusion策略头将未来空间生成与机器人动作规划连接起来,实现高效动作预测。该策略头在生成网络下游工作,利用逆扩散第一步输出未来动作序列,并利用稀疏记忆队列存储观测结果,提升长程任务规划能力。
在LIBERO基准测试中,EnerVerse在机器人动作规划任务中取得了显著优势,尤其是在多视角设定下。此外,消融实验也证明了稀疏记忆机制对长程序列生成和动作预测精度的重要性。
怜星夜思:
2、自由锚定视角(FAV)如何解决传统固定多视角方法在狭窄场景中的局限性?
3、EnerVerse如何实现Sim2Real的适配,并在真实机器人上应用?
原文内容
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
-
模态对齐:需在语言、视觉和动作等多模态空间中建立精确的对齐机制。
-
数据稀缺:缺乏规模化、多模态且具备动作标签的数据集。
-
主页地址:https://sites.google.com/view/enerverse/home
-
论文地址:https://arxiv.org/abs/2501.01895
-
通用模型局限性:当前通用视频生成模型缺乏对具身场景的针对性优化,无法适应具身任务中的特殊需求。
-
视觉记忆泛化能力不足:现有方法依赖稠密连续的视觉记忆,容易导致生成长程任务序列时逻辑不连贯,动作预测性能下降。
-
扩散模型架构:基于结合时空注意力的 UNet 结构,每个空间块内部通过卷积与双向注意力建模;块与块之间通过单向因果逻辑(causal logic)保持时间一致性,从而确保生成序列的逻辑合理性。
-
稀疏记忆机制:借鉴大语言模型(LLM)的上下文记忆,EnerVerse 在训练阶段对历史帧进行高比例随机掩码(mask),推理阶段以较大时间间隔更新记忆队列,有效降低计算开销,同时显著提升长程任务的生成能力。
-
任务结束逻辑:通过特殊的结束帧(EOS frame),实现对任务结束时机的精准监督,确保生成过程在合适节点终止。
-
自由设定视角:FAV 支持动态调整锚定视角,克服固定多视角(fixed multi-anchor view)在狭窄场景中的局限性。例如,在厨房等场景中,FAV 可轻松适应动态遮挡关系。
-
跨视角空间一致性:基于光线投射原理(ray casting),EnerVerse 通过视线方向图(ray direction map)作为视角控制条件,并将 2D 空间注意力扩展为跨视角的 3D 空间注意力(cross-view spatial attention),确保生成视频的几何一致性。
-
Sim2Real 适配:通过在仿真数据上训练的 4D 生成模型(EnerVerse-D)与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代,EnerVerse 构建了一个数据飞轮,为真实场景下的 FAV 生成提供伪真值支持。
-
高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。
-
稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的 FAV 观测结果,有效提升长程任务规划能力。
-
在短程生成任务中,EnerVerse 表现优于现有微调视频生成模型,如基于 DynamiCrafter 与 FreeNoise 的扩散模型。
-
在长程生成任务中,EnerVerse 展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。
-
单视角(one FAV)设定:EnerVerse 在 LIBERO 四类任务中的平均成功率已超过现有方法。
-
多视角(three FAV)设定:进一步提升任务成功率,在每一类任务上均超越当前最佳方法。