世界模型:AR 元宇宙的新希望?Meta、谷歌等巨头竞相布局

Meta、谷歌等巨头竞相布局世界模型,或将解锁AR元宇宙新未来。

原文标题:皮卡丘的世界模型会比 Meta 先解锁 AR 元宇宙吗?

原文作者:机器之心

冷月清谈:

Meta、World Labs、Niantic Labs 和谷歌 DeepMind 等公司都在积极开发世界模型,希望能够推动 AR 元宇宙的发展。

Meta 的 Reality Labs 部门持续投入 AR/VR 技术,尽管亏损巨大,但扎克伯格仍然坚定看好元宇宙的未来,并认为 AI 的发展将为元宇宙带来“在场感”。FAIR 团队提出 DINO-WM 和 NWM 等世界模型,希望构建更智能的虚拟空间。

李飞飞的 World Labs 也计划开发世界模型,赋予 AI 空间智能以创建更具互动性的 3D 世界。

谷歌 DeepMind 的 Genie 2 能够通过单图生成可交互的 3D 世界,展现了强大的技术实力。

Niantic Labs 提出了大型地理空间模型(LGM)的概念,与“空间智能”概念相似,被认为是 AR 元宇宙的潜在竞争者。

各家公司都在积极探索世界模型的可能性,希望能推动 AR 元宇宙的落地和发展。

怜星夜思:

1、文章提到了几个公司都在开发世界模型,它们的技术路径有什么明显的区别吗?
2、世界模型真的能成为 AR 元宇宙的“钥匙”吗?它还有什么局限性?
3、除了文章提到的这些公司,还有哪些公司或机构在世界模型方面有值得关注的研究?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


Meta、World Labs、Niantic Labs 和谷歌DeepMind 等团队近期均发布了各自的世界模型进展。这些世界模型所展示了前所未有的理解能力和构建虚拟空间的效果,为冷却的元宇宙回了一波温。

目录

01冷却的元宇宙热度又被世界模型拉回来了?
最近都有发了世界模型?世界模型+AR能让元宇宙回温吗?
02. Meta 对元宇宙的布局仍然有优势吗?
All in 的 Meta 有哪些技术储备?除了世界模型,Meta 还为元宇宙屯了哪些科技?
03. World Labs 的大世界模型会更有机会吗?
单图生成3D世界的项目早有预告?做LWM更有机会解锁AR元宇宙吗?
04. 谷歌或皮卡丘?还有哪些玩家有望先解锁 AR 元宇宙?
谷歌DeepMind 新发的 Genie 2 有多强?用宝可梦Go 训练的世界模型有什么优势?

 01  冷却的元宇宙热度又被世界模型拉回来了?

1、ALL in 元宇宙的 Meta 经历了裁员、股价下跌、人员变动和团队拆分等一系列动荡。但在 2024 年初,Meta 在 AI 方面的突破为公司的股价回了一口血,也让扎克伯格对元宇宙+AI 双管齐下的策略更具信心。

2、扎克伯格曾表示,元宇宙是一个「具身的互联网」,目前 AI 领域发展迅速,但下一代的 AR、MR 和 VR 计算平台将提供真实的「在场感」,这将成为未来社交体验乃至几乎所有其他领域的基础。[5]

① 「在场感」强调了用户在虚拟环境的身临其境,以及可交互性。而这种虚拟的空间可以视为现实世界的一种复制或延展,与 AI 领域所追求世界模型所需的特征相重合。

3、Yann LeCun 作为最早开始推崇世界模型的研究者之一,他带领 FAIR 团队在 2024 年提出了一系列世界模型方面的进展。

①  2024年11月,LeCun 团队提出了一种可基于离线的轨迹数据集构建与任务无关的世界模型的方法,称为DINO-WM,用于在不重建视觉世界的情况下模拟视觉动态。

② 2024年12月,LeCun 团队发提出了NWM,这是一种能够在复杂环境中导航的世界模型,能在已知和未知环境中导航,执行路径规划;还能基于单张图像生成连续一致的视频。

4、除了 Meta,2024 年宣布创业的李飞飞团队同样计划开发世界模型,通过赋予 AI 空间智能以创建更真实、更具互动性的 3D 世界,根据其创业公司 World Labs 描述的路径,他们或许也会有机会先解锁 AR 元宇宙。

5、与 Meta 同为 AI 头部公司的谷歌 DeepMind 在 2024 年同样公布了团队在世界模型的突破。其在年初推出的世界模型 Genie 能够生成多种 2D 世界,而在 12 月 5 日发布的第二代 Genie 2 则实现了质的飞跃,能够通过单图生成可交互的 3D 世界。

6、除了 AI 巨头,知名 AR 游戏宝可梦 GO 的团队 Niantic Labs 也在 11 月提出了大型地理空间模型(LGM)的概念,虽然目前仅有一项概念验证的成果,但因为 LGM 与李飞飞提出的「空间智能」概念颇为相似,因而认为是先一步解锁 AR 元宇宙的有力竞争者。

 02  Meta 对元宇宙的布局仍然有优势吗?
Meta 的 Reality Labs 部门自 2019 年以来已累计亏损约 465 亿美元。尽管亏损巨大,马克·扎克伯格并未放弃对元宇宙的投入。2024 年 9 月,Meta 发布了 AR 眼镜 Orion 和 Llama 3.2 版本,并强调后者补齐了公司的主流多模态储备,Yann LeCun 团队提出的DINO-WM和NWM等世界模型则进一步为其 AR 元宇宙的基础。

1、由图灵奖得主 Yann LeCun 领衔的基础人工智能研究团队 FAIR 是 AI 领域备受关注的明星实验室之一。2024 年 6 月,FAIR 在 Meta 的 AI 部门重组后并入了 Reality Labs,而前者的一系列技术储备也将更直接地为 Meta 的元宇宙设备增加智能性......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

👀 往期回顾 👀 

 01  AI 竞赛进入推理阶段:扩展测试时计算是万能的吗?Scaling What 成为关键
传统的 Scaling Laws 范式是否已经达到极限?新的 Scaling Laws 范式能否解决数据难题?只要扩展测试时间计算,就能够实现通用人工智能吗?「LLM + 推理模型」是否能实现类人智能?LLM 真的具有推理能力吗?...
 02  谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?
具身智能创企融资规模如何?明星「练习生」都有哪些头部资源支持?各家创企技术路径有何差异?「练习生」都有哪些技术储备?具身智能还差些什么?...
 03  「压缩即智能」,成就 LLM 的 Transformer 未必是终极解?
知识压缩理论已经获得验证了?LLM 范式有变革征兆了?LLM 范式会向哪个方向演进?为什么Transformer 未必能够长青?有哪些声音在质疑Transformer?有哪些非Transformer的可行路线?...
 04  从文本到屏幕:「Project Jarvis」们能实现 AGI 吗?
头部 AI 公司为何都在做 AI 自主计算机操控?这事可行吗?和RPA的区别是什么?AI Agent自主操控计算机需要具备哪些能力?微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同?...

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。




关于这个问题,我觉得Meta更偏向于视觉和交互,毕竟他们的目标是元宇宙,得让用户在虚拟世界里有“在场感”。像DINO-WM和NWM,一个模拟视觉动态,一个强调导航和视频生成,都和用户体验相关。谷歌的Genie 2就厉害了,单图生成3D世界,这建模能力很强啊,感觉更偏向于内容创作。Niantic Labs的LGM比较特别,跟地理空间结合,可能更适合AR游戏和应用。

一些游戏公司,例如 Epic Games、Unity Technologies 等,也在积极探索世界模型的应用,希望将其用于游戏开发和虚拟现实体验的提升。毕竟,游戏对图形渲染和物理引擎的要求很高,这与世界模型的发展方向也比较契合。

从文章来看,Meta 的世界模型研究似乎更注重与 VR/AR 设备的结合,强调用户在虚拟世界中的沉浸式体验和交互性。而谷歌 DeepMind 的 Genie 2 则更侧重于 3D 世界的生成和建模,或许在游戏、仿真等领域有更大的应用潜力。Niantic Labs 的 LGM 则更关注地理空间信息,可能更适用于 AR 导航、地理信息系统等领域。

除了文中提到的,我还知道一些大学和研究机构也在做世界模型,比如MIT、Stanford、CMU等等。它们的研究可能更偏理论,但也会有一些很有意思的发现。

世界模型现在就像个刚出生的婴儿,潜力无限,但也很脆弱。它能否长大成人,成为AR元宇宙的“钥匙”,还得看它能不能克服“营养不良”(数据不足)、“体弱多病”(算力不够)、“教育缺失”(算法不完善)等问题。路漫漫其修远兮,吾将上下而求索。

其实很多做自动驾驶的公司,比如特斯拉、Waymo等,也在研究世界模型,因为自动驾驶需要对周围环境有很好的理解和预测能力。所以,世界模型的研究成果,也可能应用到自动驾驶领域。

世界模型能否成为 AR 元宇宙的关键,取决于它能否解决一些核心问题,例如:如何实时地将虚拟世界与现实世界融合?如何处理庞大的数据量和复杂的交互?如何保证虚拟世界的安全性?这些都是需要进一步研究和探讨的。

兄弟们,这几个公司的技术路径,就像不同的武林门派。Meta是少林,根基深厚,内外兼修,软硬结合;谷歌是武当,以柔克刚,注重内功,算法牛逼;Niantic Labs是峨眉,剑走偏锋,专注于地理空间,自成一派。各有所长,未来谁是武林盟主,还得看实战。

我觉得世界模型确实能让AR更上一层楼,让虚拟世界更真实、更智能。但它现在还面临一些挑战,比如计算成本高、实时性差、数据量需求大等等。而且,如何让虚拟世界更“人性化”,更符合人类的认知和情感,也是个难题。