WorldMem:用记忆机制提升AI生成世界的一致性

WorldMem通过引入记忆机制,解决了AI生成世界中长期一致性问题,使AI能够生成更稳定、连贯的虚拟环境。

原文标题:转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

原文作者:机器之心

冷月清谈:

南洋理工大学、北京大学和上海AI Lab的研究者提出了一种名为WorldMem的创新世界生成模型,旨在解决现有视频生成模型在长时序下生成世界时缺乏一致性的问题。WorldMem通过引入记忆机制,允许模型回顾过去,保持场景在时间上的连续性,从而实现长时序一致的世界生成。该模型包含条件生成模块、记忆读写模块和记忆融合模块,支持在Minecraft等数据集上进行训练,并在真实数据集上验证了其可行性。实验表明,WorldMem在长时推理中表现出良好的长期稳定性,并能支持与生成世界的交互,例如模拟物体随时间的变化。

怜星夜思:

1、WorldMem 通过引入记忆机制来提升生成世界的一致性,这种思路在其他AI领域是否有借鉴意义?例如,在对话系统中,如何利用记忆机制来提升对话的连贯性和个性化?
2、文章中提到WorldMem在Minecraft数据集上进行了训练。如果在其他类型的虚拟世界或游戏中使用WorldMem,可能需要进行哪些调整或改进?
3、WorldMem通过记忆机制提升了世界生成的一致性,但记忆库的容量和检索效率可能会成为瓶颈。未来可以如何优化记忆库的设计,以实现更大规模、更高效的世界生成?

原文内容

图片


本文一作为肖泽琪,本科毕业于浙江大学,现为南洋理工大学博士生,研究方向是基于视频生成模型的世界生成和模拟,导师为潘新钢。个人主页:

https://xizaoqu.github.io


近年来,基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展,但由于上下文时间窗口受限,生成的世界在长时序下严重缺乏一致性。


针对这一问题,南洋理工大学 S-Lab、北京大学与上海 AI Lab 的研究者提出了创新性的世界生成模型——WorldMem,通过引入记忆机制,实现了长时序一致的世界生成。


WorldMem 在 Minecraft 数据集上进行了大规模训练,支持在多样化场景中自由探索和动态变化,并在真实数据集上验证了方法的可行性。


图片


  • 论文名称:WorldMem: Long-term Consistent World Simulation with Memory

  • 项目主页: https://xizaoqu.github.io/worldmem

  • 论文代码:https://github.com/xizaoqu/WorldMem

  • Demo:https://huggingface.co/spaces/yslan/worldmem


研究背景


世界生成模型在近期受到了广泛关注,如谷歌的 Genie 2 [1]、阿里的 The Matrix [2]、Meta 的 Navigation World Models [4] 等。这些方法在生成质量与交互性方面取得了显著进展,但长时一致性问题仍未得到有效解决。


举例:当我们控制视角先向右转,再向左转。


在传统方法中,回看时场景内容会发生显著变化。


图片


在 WorldMem 中,我们在世界生成模型中引入记忆机制,实现了一致的世界生成。


图片


方法效果


WorldMem 通过引入记忆机制,实现了长时序下世界生成的一致性。智能体可在广阔的动作空间中探索多样场景,生成结果在视角和位置变化后仍保持良好的几何一致性。


图片


同时,WorldMem 还支持时间一致性建模。比如在雪地中放置南瓜灯,随着时间推移,模型不仅保留该物体,还能生成其逐渐融化周围积雪的细节,体现真实的事件演化过程。


图片


方法


WorldMem 模型的主要结构如下图所示,包含三大核心模块:


  • 条件生成模块

  • 记忆读写模块

  • 记忆融合模块


图片


条件生成模块——支持交互与持续生成的条件视频生成主干


我们基于 Oasis [5] 和 Conditional DiT [6] 构建了世界生成基模型,并采用 Diffusion Forcing [3] 训练策略,使模型能在有限上下文下实现自回归式长时生成。


尽管扩散模型结合自回归训练具备一定的长时生成能力,但仍受限于上下文窗口,易出现遗忘问题,导致生成内容逐渐失真。为此,我们引入记忆机制,以增强模型的长期一致性。


记忆读写模块——负责历史信息的存取与精准检索


  • 记忆库(Memory Bank):构建生成的长期记忆


为缓解上下文窗口带来的遗忘问题,我们引入了记忆机制,作为一个持续更新的外部缓冲区,帮助模型回顾过去,保持场景在时间上的连续性。


我们设计的记忆库用于存储生成过程中的关键历史信息。每个记忆单元包含图像帧及其对应的状态(视角位姿与时间戳)。随着生成推进,记忆库不断积累,构建起一套可检索的时间记录。


  • 记忆检索(Memory Retrieve):高效选出最相关的历史帧


由于每次生成仅能参考少量历史帧,我们设计了一种贪心匹配算法,从庞大的记忆库中高效筛选关键信息:


  1. 计算相似度(基于视野重叠与时间差异);

  2. 选取与当前场景最接近的记忆单元;

  3. 过滤冗余,确保选出的记忆代表性强、信息多样。


这一过程不仅提升了生成效率,也保障了历史信息的有效利用。


记忆融合模块——融合关键历史帧,引导当前生成


在长时序视频生成中,仅依赖当前帧难以维持场景一致性。我们引入记忆融合模块,通过融合关键历史帧,引导当前生成,使模型在视角或场景变化后,仍能还原先前内容。


不同于 StreamingT2V [7]、SlowFast [8] 等方法主要依赖高层语义特征,我们更关注细节重建与空间一致性,因此需要更精细的历史关联机制。


  • Memory Attention:连接过去与现在


我们采用跨注意力机制,实现当前帧与历史帧的动态交互:


  • 为当前帧和记忆帧添加状态嵌入(位姿 + 时间);

  • 通过注意力计算,提取与当前场景最相关的记忆信息,生成融合特征用于引导生成。


这种方式实现了历史信息的高效利用与精准检索,显著增强生成的一致性。


  • 状态嵌入设计:精细表达空间与时间


为提升融合效果,我们设计了两类嵌入:


  • 位姿嵌入:采用 Plücker 坐标表达空间位置;

  • 时间嵌入:使用 MLP 映射时间戳。


二者相加构成最终状态特征。此外,我们引入相对嵌入机制


  • 查询帧使用零向量,仅依赖记忆帧的相对状态;

  • 并采用帧独立检索策略,确保每帧都能单独提取最相关历史信息。


整体上,记忆融合模块显著提升了模型的空间理解与细节保持能力,是实现稳定、连贯世界生成的关键组成部分。


实验


在 Minecraft 上的结果


我们在 Minecraft 基准测试中评估了所提方法,结果显示:


  • 在短时生成中,传统方法易出现一致性问题,而引入记忆机制后,生成质量与一致性明显提升;

  • 在长时推理中,传统方法性能显著下降,而我们的方法在各项指标上保持优势,展现出良好的长期稳定性。


图片


  • 长时序生成对比


下图展示了不同消融设置下,模型在 300 帧序列上的 PSNR 变化。结果表明:


  • 缺少记忆模块或采用随机检索的方法,在短时间内即出现一致性下降;

  • 缺少相对位置编码的模型,在 100 帧后性能明显退化;

  • 完整方法在 300 帧以上仍保持稳定一致性,展现出优越的长期建模能力。


图片


  • 可视化结果


与仿真数据(Ground Truth)相比,WorldMem 能够基于记忆条件输入,准确建模世界场景,同时支持动态变化(如降雨),并保持良好的时间一致性。





WorldMem 支持与生成世界的交互,例如在沙漠中放置干草堆或在草原上种植作物。这些事件会被写入记忆库,并影响后续生成。当用户回到曾种植作物的位置时,不仅能看到作物仍在,还能观察其从发芽到生长的过程,体现出模型对时间动态的建模能力。


图片


  • 在真实场景上的结果


我们同时也将我们的方法在真实场景数据上做了验证,结果显示,加入记忆机制后,我们的方法能够增强真实世界生成的一致性。


图片


更多定制轨迹的结果:


图片


更多细节请参考我们的论文与项目主页。


展望


近年来,视频生成模型(如 WAN 2.1 [9]、Hunyuan [10] 等)展现出惊人的世界生成与仿真能力,验证了其在理解与生成复杂环境中的潜力。


我们相信,未来交互式视频生成模型将在虚拟仿真、交互智能等领域发挥越来越重要的作用。 


WorldMem 为世界一致性建模迈出了关键一步,随着技术发展,视频生成模型有望成为构建真实、持久、交互式虚拟世界的核心引擎。


欢迎对该方向感兴趣的研究者、开发者与我们交流探讨!


参考文献

[1] Genie 2: A large-scale foundation world model. 2024.

[2] The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control. arXiv 2024.

[3] Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion. NeurIPS 2024.

[4] Navigation World Models. CVPR 2025.

[5] Oasis: A universe in a transformer. 2024.

[6] Scalable Diffusion Models with Transformers. ICCV 2023.

[7] StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text. arXiv 2024.

[8] Slow-Fast Learning for Action-Conditioned Long Video Generation. arXiv 2024.

[9] Wan: Open and Advanced Large-Scale Video Generative Models. arXiv 2025.

[10] HunyuanVideo: A Systematic Framework For Large Video Generative Models. arXiv 2024.


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得记忆库就像人的大脑,需要不断整理!可以定期清理不重要的记忆,或者把类似的记忆合并起来,减少冗余。还可以用AI模型来学习哪些记忆是重要的,哪些是可以丢弃的。这样就能让记忆库保持高效,不会变成垃圾堆!

确实需要不少改进!Minecraft是像素风格,换成其他3D游戏,画面更精细,需要更强的生成能力。而且,不同游戏的玩法不一样,比如有些游戏强调剧情,有些游戏强调战斗,WorldMem也需要根据游戏的核心玩法进行调整,才能更好地融入进去,提升玩家的体验。

这个问题很有意思!Minecraft 的世界比较简单,规则也明确。换到其他游戏,比如开放世界RPG,可能需要更复杂的记忆模块来处理更多的细节。例如,角色的关系、任务的进度、地图的探索情况等等。而且,不同游戏的美术风格不同,也需要调整 WorldMem 的生成模块,让它能更好地适应新的视觉环境。

如果在其他虚拟世界或游戏中使用WorldMem,需要考虑以下几个方面:1. 数据集的差异性:不同虚拟世界的数据集在场景复杂度、物体种类、交互方式等方面存在差异,需要针对性地调整模型结构和训练策略。2. 游戏引擎的兼容性:不同的游戏引擎(如Unity、Unreal Engine)有不同的渲染管线和资源管理方式,需要确保WorldMem能够与目标引擎无缝集成。3. 计算资源的需求:更复杂的虚拟世界通常需要更大的计算资源来支撑WorldMem的运行,需要进行模型压缩和优化,以满足实时性要求。4. 交互方式的扩展:除了视角和位置变化,其他虚拟世界可能包含更丰富的交互方式(如物理交互、社交互动),需要扩展WorldMem的输入维度和记忆模块,以支持更复杂的交互场景。

好问题!我觉得可以尝试一些更高级的记忆存储方式,比如分层记忆,把重要的信息放在更快的存储器里,不常用的就放在慢速存储里。另外,检索算法也很重要,可以试试向量检索,或者用AI模型来预测哪些记忆是重要的,优先检索这些记忆。总之,要让记忆库既能装得多,又能找得快!

当然有借鉴意义。在对话系统中,可以构建一个类似 WorldMem 的“对话记忆库”,存储用户的历史对话、知识图谱、用户画像等信息。通过检索和融合这些记忆,对话系统可以更好地理解用户意图,生成更连贯、更贴合用户需求的回复,甚至实现更高级的对话策略,例如情感识别和个性化推荐。而且,长时记忆对于维护对话的上下文和一致性至关重要,避免出现前后矛盾或者答非所问的情况。

这问题问得好!WorldMem的思路绝对有借鉴意义。对话系统里,记忆机制能记住用户的历史对话、偏好等等。这样,系统就能更自然地接话,甚至根据你的喜好推荐东西,或者提供个性化的服务。想想看,如果AI能像朋友一样记住你之前说过的话,那体验肯定不一样!

优化记忆库的设计,可以从以下几个方面入手:1. 压缩技术:采用更高效的压缩算法,减少每个记忆单元的存储空间。2. 索引结构:构建多级索引结构,加速记忆检索过程。例如,可以先通过粗粒度的索引筛选出候选记忆单元,再通过细粒度的索引进行精确匹配。3. 向量检索:将记忆单元编码为向量,利用向量数据库(如Faiss、Annoy)进行高效的相似性搜索。4. 知识图谱:将记忆单元组织成知识图谱,利用图算法进行推理和检索。5. 边缘计算:将部分记忆库部署到边缘设备上,减少网络传输延迟,提高响应速度。

我觉得借鉴意义很大!现在的对话AI很多时候都像得了“金鱼记忆症”,说过就忘。如果能学习WorldMem,引入长期记忆,就能记住用户的偏好、之前的对话内容,提供更个性化、更连贯的对话体验。甚至可以根据用户的“人设”来调整对话风格,想想就觉得很酷!