谷歌Project Genie开放体验:AI游戏创作门槛归零?

谷歌开放Project Genie,基于Genie 3的世界模型让用户轻松创建虚拟世界,AI游戏创作门槛或将降低。

原文标题:谷歌开放世界模型一夜刷屏,AI游戏门槛归零时刻来了?

原文作者:机器之心

冷月清谈:

谷歌DeepMind发布Project Genie,这是一个基于世界模型Genie 3的实验性原型,它结合了图像生成模型Nano Banana Pro和语言模型Gemini,旨在降低用户创建和探索虚拟世界的门槛。Project Genie主要有三大核心能力:世界草绘世界探索和世界重混,用户可以通过文本、图片等方式创建可交互的虚拟环境,并进行探索和再创作。目前已向部分Google AI Ultra用户开放,但仍处于早期阶段,存在一些需要改进的地方,如生成世界的逼真度、角色控制的灵敏度以及生成时长的限制等。已体验用户对Project Genie的世界建模和物理模拟能力给予了积极评价。

怜星夜思:

1、Project Genie的开放,对独立游戏开发者会带来哪些机遇和挑战?
2、除了游戏开发,你觉得Project Genie这类世界模型在哪些领域还有应用潜力?
3、目前Project Genie还存在一些局限性,你认为未来世界模型技术发展的关键是什么?

原文内容

图片
编辑|杜伟

谷歌世界模型,再一次惊艳了所有人!


今天一早,谷歌 DeepMind 开放了世界模型 Genie 3 的实验性研究原型「Project Genie」,允许用户创建、编辑并探索虚拟世界


在世界模型 Genie 3 之外,Project Genie 同样由图像生成与编辑模型 Nano Banana Pro 和语言模型 Gemini 提供技术支撑。



去年 8 月,谷歌预发布了通用世界模型 ,它能够生成多样化的交互式环境。在这一早期阶段,受邀测试者们已经创造出了令人印象深刻且极具吸引力的虚拟世界与沉浸式体验,并挖掘出了全新的使用方式。


接下来的目标是构建一个专注于「沉浸式世界创建」的交互式原型,进一步扩大受众范围。


因此自即日起,谷歌面向美国 18 岁及以上的 Google AI Ultra 用户开放了 Project Genie 的访问权限。


Project Genie 的多样性玩法


世界模型能够模拟环境的动态变化,并预测环境的演变方式以及动作对环境的影响。


与静态 3D 快照中的可探索体验不同,谷歌通用世界模型 Genie 3 会在用户移动并与世界交互时,实时生成前方的路径。


它能够为动态世界模拟出物理效果和交互,并且其突破性的一致性使得模拟任何现实场景成为可能,从机器人技术、动画建模和小说创作,到地点探索和历史场景还原。


如今,在 Genie 3、Nano Banana Pro 和 Gemini 等三大模型的支持下,Project Genie 具备了以下三大核心能力:


首先是,世界草绘(World sketching)


通过文本提示词以及生成或上传的图片,用户即可创建一个生动且不断扩张的环境。用户可以创建自己的角色和世界,并定义自己想要的探索方式,比如行走、骑行、飞行或者驾驶,等等。


为了实现更精准的控制,谷歌将「世界草绘」与 Nano Banana Pro 进行了整合。这样一来,用户在正式进入世界之前,可以预览世界的样貌并修改图像以进行微调。


用户还可以定义角色的视角(第一人称或第三人称),在进入场景前掌控自己的视觉体验。


图片


其次是,世界探索(World exploration)


用户创建的世界是一个等待探索的可导航环境。在移动时,Project Genie 会根据用户采取的行动实时生成前方路径。在穿行过程中,用户还可以调整相机视角。


最后是,世界重混(World remixing)


通过在原有提示词的基础上进行创作,将现有世界重混成新的演绎版本。用户也可以在画廊或「随机生成」图标中探索精选世界以获取灵感,并在此基础上继续构建。


完成后,用户可以下载关于自己的世界和探索过程的视频。


图片


不过目前,谷歌也承认,Genie 3 仍处于早期研究阶段, 以下几个方面需要进一步改进:


  • 生成的世界可能看起来并不完全逼真,或者并不总是能严格遵循提示词、图像或现实世界的物理规律;

  • 角色有时可能不太受控,或者在控制上存在较高的延迟;

  • 生成内容的时长限制在 60 秒以内;

  • 此前宣布的部分 Genie 3 功能(例如在探索时改变世界的提示事件「promptable events」)尚未包含在此原型中。


第一手体验出炉


谷歌开放 Project Genie,终于让更多用户亲身体验到了世界模型 Genie 3 的「AI 生万物」。



已经上手的 Ultra 用户纷纷晒出了自己的作品,给予了不错的评价。


「刚刚用 Genie 3 做出了我的第一款 AI 游戏。提示词:一位法国女子必须攀越一个违背逻辑的世界,到处都是飞行物体。这会是游戏行业的终结吗?」


图片


「Genie 3 能运行《毁灭战士》(Doom)吗?看它生成的《毁灭战士》,墙壁全是由同样在运行《毁灭战士》的屏幕组成;主角是《毁灭战士》里的陆战队员,但他的头也是一个正在运行《毁灭战士》的屏幕。」


图片


「Genie 3 在建模和物理模拟方面是一个巨大的飞跃,但仍存在一些待解决的问题,比如一只头顶着鸭子的水獭飞行员正走在一家罗斯科(Rothko)风格的机场里;以及一只穿着翼装的水獭正飞越一座充满哥特式塔楼的城市。」


图片


图片


「看 Genie 3 生成的人物是怎么打开车门的,这简直太令人震撼了。」


图片


「画面提示词为:一个男人正沿着好莱坞大道漫步。不仅能控制这个男人的动作,还能实时操控相机的视角。」


图片


参考链接:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://x.com/TrueSlazac/status/2016959063699906740?s=20

https://x.com/emollick/status/2016982218506199531

https://x.com/emollick/status/2016919989865840906?s=20

https://x.com/EHuanglu/status/2016926887151354255?s=20


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

在我看来,影视制作肯定也是一个方向。可以快速生成各种场景,节省搭建布景的成本。甚至可以用于概念设计,快速可视化导演的创意。

个人认为,如何让世界模型更好地理解人类的意图,是一个关键。现在的提示词还是比较简单,如果能让AI理解更复杂的指令,甚至能理解人类情感,那就能创造出更富有表现力的作品。

从我的角度来看,Project Genie这类工具,可以帮助独立开发者快速验证想法,节省试错成本。挑战在于如何将AI生成的内容与自己的设计理念融合,做出独特的游戏体验,而不是简单地堆砌AI素材。

除了游戏,我觉得教育领域潜力巨大!想象一下,可以利用Genie还原历史场景,让学生身临其境地学习历史。还可以用于模拟各种科学实验,提高学习效果。

从更实际的角度出发,我觉得城市规划和建筑设计也可以用得上。可以模拟城市交通、人群流动,优化设计方案。甚至可以用于灾难演练,提高应对突发事件的能力。

从技术角度来看,我觉得提高计算效率也很重要。现在的AI模型训练和推理都需要大量的计算资源,如果能降低成本,就能让更多人使用这项技术。

独立游戏开发者们,现在起飞的机会来啦!Genie这种工具能大大降低开发时间和成本,一个人也能做出以前团队才能搞定的东西。但是吧,这也意味着竞争会更激烈,创意和独特性会变得更重要啦!

我觉得关键在于提高生成内容的逼真度和可控性。现在的AI生成内容有时候还是会有些奇怪的瑕疵,比如不符合物理规律。如果能在这方面有所突破,应用前景会更广阔。

机遇肯定是降低了游戏开发的门槛,让更多有想法的人可以参与进来。挑战在于,如何利用AI工具,而不是被AI工具所限制,做出真正有灵魂、有深度的作品,避免同质化。