AI原生游戏引擎Mirage发布：文字指令秒速构建GTA世界，开启UGC游戏新纪元

almosthuman2014 · 2025 年7 月 3 日 11:26

全球首款AI原生游戏引擎Mirage发布，文字指令实时生成游戏世界，开启UGC 2.0时代！告别预设脚本，人人皆可创作专属游戏。

原文标题：全球首款AI原生UGC游戏引擎诞生！输入文字秒建GTA世界，试玩体验来了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650977355&idx=1&sn=50ac1501b075782f59126b8e4269646f&

冷月清谈：

Dynamics Lab发布了全球首款AI原生游戏引擎Mirage，该引擎允许玩家通过自然语言、键盘或控制器实时生成和修改游戏世界，支持都市乱斗和海岸漂移等多种游戏类型。Mirage的核心优势在于实时UGC创作、影视级画质呈现以及持久交互体验。它基于World Model研究，采用Transformer模型，并结合了游戏数据训练、交互式生成与实时控制等技术，实现了低延迟、高帧率的云端游戏体验。Mirage旨在革新游戏创作模式，让玩家零门槛地共创演化无限动态的游戏世界，引领UGC 2.0时代。

怜星夜思：

1、Mirage引擎的核心技术是World Model，这个概念具体指什么？它在AI生成游戏世界中起到了什么作用？
2、文章提到Mirage引擎使用了Transformer模型和扩散模型，这些模型各自有什么优势？为什么需要结合使用？
3、文章提到Mirage引擎目前还存在延迟问题，你认为除了网络延迟，还有哪些因素可能导致延迟？未来有哪些技术可以用来解决这些问题？

原文内容

机器之心报道

编辑：杜伟、Panda

从此，游戏的未来不单单由专业设计师逐关打造，而是让每一个人都能实时构思、生成并体验游戏世界。

就在今天，全球首个由实时世界模型驱动的 AI 原生游戏引擎问世了！

该游戏引擎名为「Mirage」，由 Dynamics Lab 开发。

该系统专为构建动态、交互式且持续演变的游戏体验而设计，玩家可以通过自然语言、键盘或控制器实时生成并修改整个游戏世界。

从功能定位来看，Mirage 支持多类型的游戏开发。

目前发布了两款可玩游戏演示，包括都市乱斗（GTA 风格）和海岸漂移（极限竞速地平线风格）。

都市乱斗：https://demo.dynamicslab.ai/chaos
海岸漂移：https://demo.dynamicslab.ai/drift

所有场景都是实时动态生成的，并非预设脚本。我们看到的是一个随着玩家操作实时演变的可交互动态模拟世界。

都市乱斗（GTA 风格）

海岸漂移（极限竞速地平线风格）

机器之心上手试玩了一下都市乱斗（GTA 风格），打开后界面是下面这样的，左边是控制选项，右边是街景选项。

体验了一小会，我们发现：游戏延迟还比较高，人物前后左右移动的灵敏度有进一步提升的空间。

团队成员 Zhiting Hu 在 𝕏 上分享了延迟的可能原因，其中最大的延迟来源应该是网络延迟。

Mirage 还支持用户上传初始图片，然后进行游戏，机器之心用一张公司附近的照片进行了测试，视频如下：

虽然当前体验效果与心中的预期仍有差距，但 Mirage 代表着 AI 技术的前沿突破。

相较于谷歌的 AI Doom/Genie、Decart 的 AI Minecraft 以及微软的《雷神之锤 II》AI 版等近期成果，Mirage 具备以下三大显著优势：

实时 UGC 创作：支持游戏过程中实时通过文本输入生成内容，在基于世界模型的游戏生成领域实现重大突破。
影视级画质呈现：超越早期系统的像素块风格，实现照片级真实感视觉效果。
持久交互体验：连续交互时长突破十分钟，大幅扩展生成式游戏的可持续体验边界。

评论区的网友对 Mirage 给予了很高的评价与期待。

想要体验的小伙伴，赶紧去，目前服务器可能已经处于崩溃边缘了。

开发团队坚信：随着实时生成技术的持续突破，Mirage 必将重塑游戏产业的未来格局。

UGC 2.0：生成式游戏的崛起

传统游戏采用预制设计：城市布局固定、任务脚本预设、体验存在终局。而 Mirage 打破了这一边界，让玩家在游戏过程中实时创造全新体验。

通过自然语言指令、键盘输入或控制器操作，玩家可随时生成逃亡巷道、召唤载具或扩展城市天际线。系统将即时响应，将这些用户生成元素无缝融入持续运行的模拟世界 —— 游戏世界不仅是可交互的，更在与玩家共同进化。

Mirage 支持从竞速、角色扮演到平台跳跃的多元游戏类型：

这就是 UGC 2.0 的革新世界：

零门槛创作：仅需文本描述，人人皆可生成专属游戏世界。
实时共创演化：玩家在游戏进程中即时创造、演进并重塑游戏内容。
无限动态体验：每次体验皆独一无二，永不重复，彻底告别预设脚本。

基于下一代 AI 构建

Mirage 基于前沿的 World Model 研究，采用了基于 Transformer 的大规模自回归扩散模型，能够生成可控的高保真视频游戏序列。据介绍，该技术框架融合了多项关键创新：

基于游戏进行的基础训练

Mirage 建立在强大的训练基础上 —— 目标是理解和生成丰富的游戏体验。这一基础始于从互联网上大规模收集各种游戏数据 —— 这些数据可提供捕捉各种游戏机制和风格所需的广度。

为此，Dynamics Lab 构建了一个专门的数据记录工具，可用于捕捉高质量的人类录制的游戏互动。通过细致的、高保真度的样本，这些精心编排的流程丰富了数据集，从而可以训练模型掌握复杂的玩家行为和游戏情境逻辑。

随后，收集和记录的数据会被输入到一个垂直训练流水线 —— 一种专注于游戏领域的特定训练方法。这使得模型能够深入内化游戏世界规则、系统模式和交互动态。

最终，该模型能够生成连贯、逼真且灵活的游戏内容，进而突破了传统预先编写游戏的限制。

交互式生成与实时控制的结合

通过将帧级提示词处理集成到其核心，Mirage 重新定义了实时交互。这使得玩家能够输入命令或提示 —— 它们会在游戏进行中被即时解释。

支持通过云游戏随时随地畅玩：

动态输入系统：Mirage 能以超低延迟处理玩家输入（主要通过键盘和文本），实现近乎即时的响应。
实时输出：视觉更新通过一个全双工通信管道传输回浏览器；在这个管道中，输入和输出并行流动，从而消除延迟并确保流畅的交互。

具体技术上，Mirage 基于一个定制版因果 Transformer 模型，并进行了以下增强：

专用视觉编码器
经过改进的位置编码
针对扩展式交互序列优化的结构

Mirage 集中了 LLM 和扩散模型的优势，支持生成连贯、高质量的内容。为了同时保证速度和质量，该团队还在其扩散组件中使用的蒸馏策略。

游戏支持玩家随时使用自然语言重塑环境，从而触发即时世界更新。其具备由 KV cache 驱动的长上下文窗口，因此即使在世界实时演变的情况下，游戏也能保持视觉一致性。

关键功能

16 FPS 帧率：以标清 (SD) 分辨率进行实时交互。
动态 UGC：玩家可以使用自然语言命令改变世界。
扩展型游戏体验：Mirage 可生成分钟级的互动游戏，并保持视觉一致性。
云串流：随时随地进行跨平台即时游戏，无需下载。
无限重玩性：每次游戏体验都独一无二。
多模式控制：接受文本、按键和控制器输入。

团队成员及未来展望

据介绍，Mirage 由一支技术深厚、创意驱动型的 AI 研究员、工程师和设计师团队打造。

团队成员拥有谷歌、英伟达、亚马逊、世嘉、苹果、微软、卡内基梅隆大学及加州大学圣地亚哥分校的深厚背景。

Dynamics Lab 还在博客中分享了他们的「未来之路」：「生成式游戏不仅仅是一项功能，更是一种全新的媒介。Mirage 引领着一个游戏不再需要下载或设计，而是需要被想象、被激发、被体验的未来。」

博客地址：https://blog.dynamicslab.ai/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

MysticWhale856 · 2025 年7 月 4 日 16:11

World Model这个概念最早是从强化学习领域发展起来的，简单来说，它指的是一个AI系统学习并构建的关于世界的抽象模型。这个模型能够帮助AI理解世界的运作方式，预测未来的状态，并做出相应的决策。在Mirage引擎中，World Model意味着AI不仅能理解游戏的规则，还能模拟游戏世界的物理特性、角色行为等，从而根据玩家的指令生成合理且具有真实感的游戏内容。

在AI生成游戏世界中，World Model的作用至关重要：

* 理解和推理：帮助AI理解玩家指令的含义，并将其转化为具体的游戏元素。
* 预测和生成：能够预测玩家行为可能造成的后果，并生成与玩家行为相适应的游戏内容。
* 维持一致性：确保生成的游戏内容在视觉上和逻辑上保持一致，提供流畅的游戏体验。

Nova837x · 2025 年7 月 5 日 04:34

我来抖个机灵：会不会是AI在偷懒？哈哈，开个玩笑。

认真地说，我觉得延迟也可能跟服务器压力有关。现在体验的人肯定很多，服务器不堪重负，自然会变慢。

解决方法嘛，除了扩容服务器，还可以考虑使用更高效的算法，或者优化数据传输方式，减少服务器的压力。

Phantom20m · 2025 年7 月 6 日 12:41

我理解的World Model就像一个AI的“世界观”，它不是简单地记住一些数据，而是理解事物之间的联系和规律。在Mirage里，这个“世界观”让AI知道“车”是什么，它应该怎么动，撞到东西会怎么样。这样，当你输入“来辆跑车”的时候，AI才能生成一辆符合物理规则、能与其他物体互动的跑车，而不是一堆乱码或者看起来很奇怪的东西。

如果没有这个“世界观”，AI可能就只能随机生成一些看起来像建筑物或者车辆的模型，但它们无法互动，也缺乏真实感。有了World Model，AI才能创造出一个生动、可信的游戏世界。

MorningDew906 · 2025 年7 月 8 日 16:44

Transformer模型和扩散模型都是深度学习领域的明星。Transformer模型擅长处理序列数据，能够捕捉长距离依赖关系，这使得它在理解自然语言指令、生成连贯的游戏内容方面非常有效。而扩散模型则擅长生成高质量的图像和视频，能够为游戏世界提供逼真的视觉效果。

结合使用这两种模型，可以取长补短：

* Transformer模型：负责理解玩家的指令，并将其转化为游戏世界的改变。
* 扩散模型：负责根据Transformer模型的输出，生成高质量的图像和视频，呈现游戏世界的变化。

总的来说，Transformer模型保证了游戏内容的逻辑性和连贯性，而扩散模型则保证了游戏画面的真实性和美观性。

Wisp43b · 2025 年7 月 9 日 04:54

World Model，我的理解是AI对游戏世界的理解程度。简单点说，就像我们玩游戏前会阅读游戏设定一样，AI也需要理解这个游戏世界的规则、物理特性等等。这个“理解”越深刻，AI生成的内容就越符合游戏世界的设定，也就越真实、越好玩。

在Mirage中，World Model让AI能够根据玩家的指令，创造出符合游戏世界观的内容。比如，玩家输入“下雨”，AI就能生成逼真的雨滴、潮湿的地面等等。这种细致的模拟，让游戏体验更加沉浸。

Comet761k · 2025 年7 月 9 日 09:41

除了网络延迟，我认为以下因素也可能导致Mirage引擎的延迟问题：

* 计算复杂度：AI生成游戏内容需要大量的计算资源，模型越复杂，计算量越大，延迟越高。
* 数据传输：游戏数据需要在客户端和服务器之间进行传输，传输速度受带宽和距离等因素影响。
* 渲染效率：将AI生成的内容渲染成图像也需要时间，渲染效率越高，延迟越低。

未来，可以通过以下技术来解决这些问题：

* 模型优化：简化模型结构，减少计算量。
* 边缘计算：将部分计算任务放在客户端进行，减少网络传输延迟。
* 云计算：利用云计算的强大计算能力，加速AI生成和渲染过程。
* 流式渲染：将渲染过程分解成多个小任务，逐步传输到客户端，提高渲染效率。

Solace15k · 2025 年7 月 9 日 16:23

我觉得除了文章里提到的网络延迟，还有可能是AI“思考”的时间太长了。AI需要根据玩家的指令生成游戏内容，这个过程就像AI在“头脑风暴”，如果AI的“大脑”不够快，或者“想法”太复杂，就会导致延迟。

要解决这个问题，我觉得可以从以下几个方面入手：

* 让AI更聪明：优化AI模型，提高其理解和生成能力。
* 给AI更多资源：提供更强大的计算资源，加速AI的“思考”过程。
* 提前给AI“打草稿”：预先生成一些常用的游戏元素，当玩家需要时，AI可以直接调用，减少生成时间。

LaughingDolphin634 · 2025 年7 月 10 日 15:15

我有个更形象的比喻：Transformer是导演，负责安排剧情和角色；扩散模型是化妆师，负责给角色上妆，让画面更好看。导演决定了故事的走向，化妆师让故事更养眼。一个负责内容，一个负责颜值，缺一不可。

而且，这两个模型结合使用，还能提高效率。Transformer可以先粗略地生成游戏内容，然后扩散模型再进行精细化处理，这样可以大大减少计算量，提高生成速度。

QuietKoala728 · 2025 年7 月 10 日 19:50

Transformer就像游戏的“策划”，它负责理解玩家的需求，规划游戏世界的走向。扩散模型就像“美工”，它负责把“策划”的想法变成漂亮的画面。Transformer让AI知道要做什么，扩散模型让AI知道怎么做好看。

之所以要结合使用，是因为游戏不仅要好玩，还要好看。如果只有Transformer，游戏可能逻辑没问题，但画面惨不忍睹；如果只有扩散模型，画面再漂亮，也可能没法玩。所以，它们必须合作，才能创造出真正吸引人的游戏。