AI原生游戏引擎Mirage发布:文字指令秒速构建GTA世界,开启UGC游戏新纪元

全球首款AI原生游戏引擎Mirage发布,文字指令实时生成游戏世界,开启UGC 2.0时代!告别预设脚本,人人皆可创作专属游戏。

原文标题:全球首款AI原生UGC游戏引擎诞生!输入文字秒建GTA世界,试玩体验来了

原文作者:机器之心

冷月清谈:

Dynamics Lab发布了全球首款AI原生游戏引擎Mirage,该引擎允许玩家通过自然语言、键盘或控制器实时生成和修改游戏世界,支持都市乱斗和海岸漂移等多种游戏类型。Mirage的核心优势在于实时UGC创作、影视级画质呈现以及持久交互体验。它基于World Model研究,采用Transformer模型,并结合了游戏数据训练、交互式生成与实时控制等技术,实现了低延迟、高帧率的云端游戏体验。Mirage旨在革新游戏创作模式,让玩家零门槛地共创演化无限动态的游戏世界,引领UGC 2.0时代。

怜星夜思:

1、Mirage引擎的核心技术是World Model,这个概念具体指什么?它在AI生成游戏世界中起到了什么作用?
2、文章提到Mirage引擎使用了Transformer模型和扩散模型,这些模型各自有什么优势?为什么需要结合使用?
3、文章提到Mirage引擎目前还存在延迟问题,你认为除了网络延迟,还有哪些因素可能导致延迟?未来有哪些技术可以用来解决这些问题?

原文内容

机器之心报道

编辑:杜伟、Panda

从此,游戏的未来不单单由专业设计师逐关打造,而是让每一个人都能实时构思、生成并体验游戏世界。


就在今天,全球首个由实时世界模型驱动的 AI 原生游戏引擎问世了!


该游戏引擎名为「Mirage」,由 Dynamics Lab 开发。


该系统专为构建动态、交互式且持续演变的游戏体验而设计,玩家可以通过自然语言、键盘或控制器实时生成并修改整个游戏世界。



从功能定位来看,Mirage 支持多类型的游戏开发。



目前发布了两款可玩游戏演示,包括都市乱斗(GTA 风格)海岸漂移(极限竞速地平线风格)


  • 都市乱斗:https://demo.dynamicslab.ai/chaos

  • 海岸漂移:https://demo.dynamicslab.ai/drift


所有场景都是实时动态生成的,并非预设脚本。我们看到的是一个随着玩家操作实时演变的可交互动态模拟世界。


图片

都市乱斗(GTA 风格)


图片

海岸漂移(极限竞速地平线风格)


机器之心上手试玩了一下都市乱斗(GTA 风格),打开后界面是下面这样的,左边是控制选项,右边是街景选项。



体验了一小会,我们发现:游戏延迟还比较高,人物前后左右移动的灵敏度有进一步提升的空间。



团队成员 Zhiting Hu 在 𝕏 上分享了延迟的可能原因,其中最大的延迟来源应该是网络延迟。



Mirage 还支持用户上传初始图片,然后进行游戏,机器之心用一张公司附近的照片进行了测试,视频如下:



虽然当前体验效果与心中的预期仍有差距,但 Mirage 代表着 AI 技术的前沿突破。


相较于谷歌的 AI Doom/Genie、Decart 的 AI Minecraft 以及微软的《雷神之锤 II》AI 版等近期成果,Mirage 具备以下三大显著优势:


  • 实时 UGC 创作:支持游戏过程中实时通过文本输入生成内容,在基于世界模型的游戏生成领域实现重大突破。

  • 影视级画质呈现:超越早期系统的像素块风格,实现照片级真实感视觉效果。

  • 持久交互体验:连续交互时长突破十分钟,大幅扩展生成式游戏的可持续体验边界。


评论区的网友对 Mirage 给予了很高的评价与期待。



想要体验的小伙伴,赶紧去,目前服务器可能已经处于崩溃边缘了。



开发团队坚信:随着实时生成技术的持续突破,Mirage 必将重塑游戏产业的未来格局。



UGC 2.0:生成式游戏的崛起


传统游戏采用预制设计:城市布局固定、任务脚本预设、体验存在终局。而 Mirage 打破了这一边界,让玩家在游戏过程中实时创造全新体验。


通过自然语言指令、键盘输入或控制器操作,玩家可随时生成逃亡巷道、召唤载具或扩展城市天际线。系统将即时响应,将这些用户生成元素无缝融入持续运行的模拟世界 —— 游戏世界不仅是可交互的,更在与玩家共同进化。


Mirage 支持从竞速、角色扮演到平台跳跃的多元游戏类型:



这就是 UGC 2.0 的革新世界:


  • 零门槛创作:仅需文本描述,人人皆可生成专属游戏世界。

  • 时共创演化:玩家在游戏进程中即时创造、演进并重塑游戏内容。

  • 无限动态体验:每次体验皆独一无二,永不重复,彻底告别预设脚本。


基于下一代 AI 构建


Mirage 基于前沿的 World Model 研究,采用了基于 Transformer 的大规模自回归扩散模型,能够生成可控的高保真视频游戏序列。据介绍,该技术框架融合了多项关键创新:


基于游戏进行的基础训练


Mirage 建立在强大的训练基础上 —— 目标是理解和生成丰富的游戏体验。这一基础始于从互联网上大规模收集各种游戏数据 —— 这些数据可提供捕捉各种游戏机制和风格所需的广度。


为此,Dynamics Lab 构建了一个专门的数据记录工具,可用于捕捉高质量的人类录制的游戏互动。通过细致的、高保真度的样本,这些精心编排的流程丰富了数据集,从而可以训练模型掌握复杂的玩家行为和游戏情境逻辑。


随后,收集和记录的数据会被输入到一个垂直训练流水线 —— 一种专注于游戏领域的特定训练方法。这使得模型能够深入内化游戏世界规则、系统模式和交互动态。


最终,该模型能够生成连贯、逼真且灵活的游戏内容,进而突破了传统预先编写游戏的限制。


交互式生成与实时控制的结合


通过将帧级提示词处理集成到其核心,Mirage 重新定义了实时交互。这使得玩家能够输入命令或提示 —— 它们会在游戏进行中被即时解释。


支持通过云游戏随时随地畅玩:


  • 动态输入系统:Mirage 能以超低延迟处理玩家输入(主要通过键盘和文本),实现近乎即时的响应。

  • 时输:视觉更新通过一个全双工通信管道传输回浏览器;在这个管道中,输入和输出并行流动,从而消除延迟并确保流畅的交互。


具体技术上,Mirage 基于一个定制版因果 Transformer 模型,并进行了以下增强:


  • 专用视觉编码器

  • 经过改进的位置编码

  • 针对扩展式交互序列优化的结构


Mirage 集中了 LLM 和扩散模型的优势,支持生成连贯、高质量的内容。为了同时保证速度和质量,该团队还在其扩散组件中使用的蒸馏策略。


游戏支持玩家随时使用自然语言重塑环境,从而触发即时世界更新。其具备由 KV cache 驱动的长上下文窗口,因此即使在世界实时演变的情况下,游戏也能保持视觉一致性。


关键功能


  • 16 FPS 帧率:以标清 (SD) 分辨率进行实时交互。

  • 动态 UGC:玩家可以使用自然语言命令改变世界。

  • 扩展型游戏体验:Mirage 可生成分钟级的互动游戏,并保持视觉一致性。

  • 云串流:随时随地进行跨平台即时游戏,无需下载。

  • 无限重玩性:每次游戏体验都独一无二。

  • 多模式控制:接受文本、按键和控制器输入。


团队成员及未来展望


据介绍,Mirage 由一支技术深厚、创意驱动型的 AI 研究员、工程师和设计师团队打造。


团队成员拥有谷歌、英伟达、亚马逊、世嘉、苹果、微软、卡内基梅隆大学及加州大学圣地亚哥分校的深厚背景。


Dynamics Lab 还在博客中分享了他们的「未来之路」:「生成式游戏不仅仅是一项功能,更是一种全新的媒介。Mirage 引领着一个游戏不再需要下载或设计,而是需要被想象、被激发、被体验的未来。」


博客地址:https://blog.dynamicslab.ai/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

World Model这个概念最早是从强化学习领域发展起来的,简单来说,它指的是一个AI系统学习并构建的关于世界的抽象模型。这个模型能够帮助AI理解世界的运作方式,预测未来的状态,并做出相应的决策。在Mirage引擎中,World Model意味着AI不仅能理解游戏的规则,还能模拟游戏世界的物理特性、角色行为等,从而根据玩家的指令生成合理且具有真实感的游戏内容。

在AI生成游戏世界中,World Model的作用至关重要:

* 理解和推理:帮助AI理解玩家指令的含义,并将其转化为具体的游戏元素。
* 预测和生成:能够预测玩家行为可能造成的后果,并生成与玩家行为相适应的游戏内容。
* 维持一致性:确保生成的游戏内容在视觉上和逻辑上保持一致,提供流畅的游戏体验。

我来抖个机灵:会不会是AI在偷懒?哈哈,开个玩笑。

认真地说,我觉得延迟也可能跟服务器压力有关。现在体验的人肯定很多,服务器不堪重负,自然会变慢。

解决方法嘛,除了扩容服务器,还可以考虑使用更高效的算法,或者优化数据传输方式,减少服务器的压力。

我理解的World Model就像一个AI的“世界观”,它不是简单地记住一些数据,而是理解事物之间的联系和规律。在Mirage里,这个“世界观”让AI知道“车”是什么,它应该怎么动,撞到东西会怎么样。这样,当你输入“来辆跑车”的时候,AI才能生成一辆符合物理规则、能与其他物体互动的跑车,而不是一堆乱码或者看起来很奇怪的东西。

如果没有这个“世界观”,AI可能就只能随机生成一些看起来像建筑物或者车辆的模型,但它们无法互动,也缺乏真实感。有了World Model,AI才能创造出一个生动、可信的游戏世界。

Transformer模型和扩散模型都是深度学习领域的明星。Transformer模型擅长处理序列数据,能够捕捉长距离依赖关系,这使得它在理解自然语言指令、生成连贯的游戏内容方面非常有效。而扩散模型则擅长生成高质量的图像和视频,能够为游戏世界提供逼真的视觉效果。

结合使用这两种模型,可以取长补短:

* Transformer模型:负责理解玩家的指令,并将其转化为游戏世界的改变。
* 扩散模型:负责根据Transformer模型的输出,生成高质量的图像和视频,呈现游戏世界的变化。

总的来说,Transformer模型保证了游戏内容的逻辑性和连贯性,而扩散模型则保证了游戏画面的真实性和美观性。

World Model,我的理解是AI对游戏世界的理解程度。简单点说,就像我们玩游戏前会阅读游戏设定一样,AI也需要理解这个游戏世界的规则、物理特性等等。这个“理解”越深刻,AI生成的内容就越符合游戏世界的设定,也就越真实、越好玩。

在Mirage中,World Model让AI能够根据玩家的指令,创造出符合游戏世界观的内容。比如,玩家输入“下雨”,AI就能生成逼真的雨滴、潮湿的地面等等。这种细致的模拟,让游戏体验更加沉浸。

除了网络延迟,我认为以下因素也可能导致Mirage引擎的延迟问题:

* 计算复杂度:AI生成游戏内容需要大量的计算资源,模型越复杂,计算量越大,延迟越高。
* 数据传输:游戏数据需要在客户端和服务器之间进行传输,传输速度受带宽和距离等因素影响。
* 渲染效率:将AI生成的内容渲染成图像也需要时间,渲染效率越高,延迟越低。

未来,可以通过以下技术来解决这些问题:

* 模型优化:简化模型结构,减少计算量。
* 边缘计算:将部分计算任务放在客户端进行,减少网络传输延迟。
* 云计算:利用云计算的强大计算能力,加速AI生成和渲染过程。
* 流式渲染:将渲染过程分解成多个小任务,逐步传输到客户端,提高渲染效率。

我觉得除了文章里提到的网络延迟,还有可能是AI“思考”的时间太长了。AI需要根据玩家的指令生成游戏内容,这个过程就像AI在“头脑风暴”,如果AI的“大脑”不够快,或者“想法”太复杂,就会导致延迟。

要解决这个问题,我觉得可以从以下几个方面入手:

* 让AI更聪明:优化AI模型,提高其理解和生成能力。
* 给AI更多资源:提供更强大的计算资源,加速AI的“思考”过程。
* 提前给AI“打草稿”:预先生成一些常用的游戏元素,当玩家需要时,AI可以直接调用,减少生成时间。

我有个更形象的比喻:Transformer是导演,负责安排剧情和角色;扩散模型是化妆师,负责给角色上妆,让画面更好看。导演决定了故事的走向,化妆师让故事更养眼。一个负责内容,一个负责颜值,缺一不可。

而且,这两个模型结合使用,还能提高效率。Transformer可以先粗略地生成游戏内容,然后扩散模型再进行精细化处理,这样可以大大减少计算量,提高生成速度。

Transformer就像游戏的“策划”,它负责理解玩家的需求,规划游戏世界的走向。扩散模型就像“美工”,它负责把“策划”的想法变成漂亮的画面。Transformer让AI知道要做什么,扩散模型让AI知道怎么做好看。

之所以要结合使用,是因为游戏不仅要好玩,还要好看。如果只有Transformer,游戏可能逻辑没问题,但画面惨不忍睹;如果只有扩散模型,画面再漂亮,也可能没法玩。所以,它们必须合作,才能创造出真正吸引人的游戏。