浙大团队开源InSpatio-World：低成本打造实时交互4D世界模型，登顶权威榜单

almosthuman2014 · 2026 年3 月 20 日 12:59

浙大团队开源InSpatio-World，登顶权威世界模型榜单！低成本实现实时交互4D世界，AI从感知到重构物理世界。

原文标题：登顶全球权威榜单！浙大创业团队百卡打造开源实时世界模型，视频秒变可交互4D世界

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651022576&idx=1&sn=05f58042f6e26b85db834aaa94bde171&

冷月清谈：

浙大系初创公司影溯（InSpatio）发布并开源了世界模型InSpatio-World，该模型在权威榜单WorldScore-Dynamic中名列前茅。与传统依赖大量算力的2D模型不同，InSpatio-World采用更高效的3D空间架构，实现了实时交互的动态世界。该模型仅用少量成本就超越了算力强大的同类模型，并在单张专业级显卡上实现了24FPS的推理速度。InSpatio-World通过将2D视频转化为可学习的3D动态表示，突破了数据瓶颈。其提出的状态锚定世界建模范式，实现了从视觉模拟到物理仿真的跨越，使AI能够对空间与动态进行理解和预测。InSpatio-World降低了物理世界数字化的门槛，为自动驾驶、虚拟现实、具身智能等领域带来了新的可能性。

怜星夜思：

1、InSpatio-World采用3D架构在效率上超越了传统的2D模型，你认为未来世界模型的架构发展方向会是怎样的？除了3D架构，还有哪些潜在的更优方案？
2、文章提到InSpatio-World在自动驾驶、VR/AR和具身智能等领域有应用前景，你认为在这些领域中，哪一个最有可能率先实现大规模落地？为什么？
3、InSpatio-World 展示了中国团队在世界模型领域的实力，你认为中国AI团队在世界模型领域有哪些优势和劣势？

原文内容

编辑｜Youli

过去一年，全球科技界正开启一场关于「世界模型」的豪赌。

从李飞飞 World Labs 的百亿美元估值神话，到 Yann LeCun 创下纪录的 10.3 亿美元种子轮，再到 Google 与 NVIDIA 倾注海量算力的资源博弈 —— 资本与天才们正押注同一个未来：AI 终将走出屏幕，理解并重构物理世界。

所谓世界模型，是 AI 的「内生物理引擎」。它要求 AI 像人类一样理解三维空间、记忆物体状态并预测物理演变。然而，目前主流模型大多只是在「画」像素而非「懂」物理，一旦涉及复杂交互，逻辑便会崩塌。若无法从「视觉生成」跨越到「物理感知」，AI 就永远无法在现实世界中自由行动。

但拐点比想象中来得更快。就在全球算力竞赛陷入「像素瓶颈」的僵局时，浙大系初创公司影溯（InSpatio）给出了破局答案。

近日，影溯正式发布并开源世界模型 InSpatio-World，综合性能优异，在李飞飞牵头的权威世界模型榜单 WorldScore-Dynamic 中，力压其他实时 / 交互级推理速度的世界模型。它彻底摒弃了烧钱低效的纯 2D 视频路径，凭借更具第一性原理的 3D 空间架构，带来了可实时交互的动态世界。

更令行业震撼的是其「效率奇迹」：仅用数百万元的训练成本（并非一次训练，而是研发全周期的训练迭代），便在核心指标上反超同类 AI 巨头的模型，而且在单张专业级显卡上实现 24FPS 的推理速度！

这标志着，在世界模型的技术博弈中，国内团队不仅杀回了牌桌，更直接打出了「王炸」。相比 2D 路径动辄数亿的资源黑洞，影溯用实战证明了 3D 路径近乎碾压的代际效率优势。

模型演示：world.inspatio.com
项目主页：https://inspatio.github.io/inspatio-world/
代码主页：https://github.com/inspatio/inspatio-world
官网链接：https://www.inspatio.com/

项目发布后迅速引发硅谷 AI 圈层关注，多位意见领袖相继转发；NeRF 原始论文共同作者、Google DeepMind 首席研究科学家 Jon Barron 也在第一时间参与传播。

范式突破，国内创业团队登顶实时世界模型榜首

只需一段普通单目视频，InSpatio-World 即可「复活」一个鲜活的 4D 世界。

它让 4D 建模彻底走出实验室，将日常影像重塑为可反复进入、沉浸体验的立体记忆空间，使平面的像素跃升为跨越时空的数字现实。

不仅如此，凭借强大的实时仿真能力，它正成为具身智能与自动驾驶非常理想、有效的虚拟训练场。从重塑时空到赋能产业，InSpatio-World 正在定义下一代可交互数字资产。

特别令人兴奋的是，相比以往的世界模型，InSpatio-World 对算力的要求大幅降低：仅需百卡级别的算力即可完成快速训练，甚至在单张 RTX 4090 显卡上就能实现 10 FPS 的流畅推理，极大打开了商业化落地的想象空间。

除了惊艳的实际效果，在 WorldScore-Dynamic Benchmark 的最新评测中，最小参数规模版本的 InSpatio-World 已经力压群雄，在实时 / 交互级世界模型中位居榜首。

这次「以小搏大」的夺冠，标志着世界模型赛道的两大底层突破：

架构胜过规模：在动辄千亿参数的暴力美学竞赛中，小参数模型凭借架构优势逆袭，证明了建模范式远比规模堆叠更重要；
从「像素生成」到「实时仿真」：InSpatio-World 交付的不再是静态、单向的视频切片，而是一个响应式、可交互的「鲜活世界」，实现了从像素复现到实时状态模拟的跨代飞跃。

最颠覆之处在于，InSpatio-World 极大地降低了物理世界的数字化门槛。它摆脱了昂贵的专业设备与冗长的渲染等待，让「瞬时建模」的愿景变得触手可及。

技术路径：以三维为锚点，表征世界

世界模型的核心目标，是通过预测下一时刻的世界状态，使 AI 具备对空间与动态的理解能力。

但在「如何表征世界」上，行业存在根本分歧：

2D 路线（如 NVIDIA 的 Cosmos、Google 的 Genie 系列）

通过海量视频进行「视觉统计」学习。优势在于数据红利极度充裕，但由于缺乏显式几何约束，模型往往在处理复杂遮挡、大尺度相机运动或长程演化时，出现物理一致性坍塌（如物体凭空消失或变形）。

3D 路线（如 World Labs 的 Marble 以及 RTFM 模型）

坚持「空间结构」直接建模。其基本判断是：若 AI 终将介入物理世界，其内部表征必须是三维的。这种路径天然具备空间一致性与可解释性，但长期被困于 “高质量 3D 数据稀缺” 的泥潭。

这一分歧的本质在于，是从「视觉统计」逼近世界，还是从「空间结构」直接建模世界。

而影溯选择了一条更具挑战性的路径：将海量 2D 视频转化为可学习的 3D 动态表示。这一思路巧妙地绕过了数据瓶颈，实现了从 InSpatio-WorldFM（静态 3D 世界重建）到 InSpatio-World（动态 4D 世界演化）的跨越。

除了在数据获取上的创新思路，影溯的另一突破在于提出了状态锚定世界建模（State-Anchored World Modeling）范式，实现了世界模型从视觉模拟向物理仿真的本质跨越。

不同于传统模型在像素层面的概率预测，影溯通过显式建模「世界状态」，实现了观测视角与物理实体的本质解耦。

在此范式下，时间的演化不再是画面的连续扩散，而是 3D 状态本身的物理更新。依托「显式状态建模、时空自回归框架、联合分布匹配蒸馏」三大核心技术，模型在锁定空间确定性的同时，将海量视频的视觉真实感完美蒸馏至 3D 空间。

这一范式的演变，标志着 AI 产出从「易逝的像素序列」进化为「可演化的 4D 空间实体」，具体体现为以下两点维度跃迁：

从像素模拟到物理仿真：

打破了视频生成的「视觉幻觉」，确保物理法则在持续运行中保持严丝合缝的一致性，而非随时间推移产生逻辑漂移或画面崩塌。

从线性播放到时空交互：

彻底告别单向流转的视频形态，世界变得可以被自由暂停、精准回溯，用户甚至能随时重返某一历史时刻，介入一个真实交互的 4D 动态时空。

顶级团队入场，用架构创新，突破算力困局

在世界模型这一充满天价融资与算力博弈的超级赛道上，影溯（InSpatio）团队正以一种极具「DeepSeek 色彩」的方式完成突围。

这种突破的核心不在于算力的暴力堆砌，而在于算法架构的极致创新与工程化能力的深度融合。影溯之所以能用轻量化参数在 WorldScore 榜单上实现「以小博大」，得益于其背后一条独特的产学研协同路径 —— 将顶尖学术团队的原始创新能力，与产业一线的工程实战能力无缝嵌合，形成了完整的技术闭环。

这支「国家队」背景的团队，构建了贯通三维感知理解、实时空间计算与物理仿真的全栈技术和工程能力闭环，而这正是产学研深度融合的成果：浙江大学计算机辅助设计与图形系统全国重点实验室长江学者、国家杰青鲍虎军教授作为首席科学家，所领衔的前沿研究团队在图形学、空间计算与混合现实领域数十年厚积薄发，为世界模型和空间智能的构建奠定了坚实的理论和技术基础；作为鲍虎军教授团队成员、同时也是影溯创始人的章国锋教授，早年即在商汤科技兼职带领技术团队，在学术研究与产业落地之间积累了丰富的实战经验，这种双重身份的淬炼，使他能够将空间智能的前沿算法，转化为驱动产业变革的实际动能。这些来自学术端的理论突破与产业端的落地认知，经由联合创始人刘浩敏博士及其团队的工程化能力进一步放大，在产业一线完成了模型训练、效率优化与系统验证，让前沿算法得以在有限算力下实现实时响应与极致吞吐。

正是这种从实验室到产业端的双向奔赴 —— 学术研究提供「从 0 到 1」的范式突破，工程化能力承接「从 1 到 N」的效率攻坚 —— 让影溯不仅理解如何构建静态空间，更理解如何让空间逻辑化地动态演化。基于这种从「模拟像素」到「模拟存在」的范式理解，影溯在两周内连续凭借 InSpatio-WorldFM 与 InSpatio-World 获得了业内的广泛关注。

从「模拟像素」到「模拟存在」，世界模型正在逼近「真实」

业界的一个普遍观点是，如果说 LLM 定义了过去几年的 AI 浪潮，那么世界模型很有可能正在定义下一轮。它不只是让 AI 生成得更真实，而在于让 AI 第一次有机会以更接近真实世界的方式去观察、记忆、预测和规划。因此，世界模型正在重写多个行业的底层逻辑……

在自动驾驶领域，世界模型正在推动行业从「端到端感知」迈向「生成式智驾」，通过构建可控的虚拟世界，系统可以在仿真中生成大量长尾场景，反复试错并持续优化，从而形成「数据 — 仿真 — 策略迭代」的闭环。

在虚拟现实（VR/AR）领域，世界模型则有望缓解长期存在的「空间内容供给瓶颈」，将文本、图像甚至视频直接转化为可探索的三维空间，使空间内容的生产从手工建模，走向自动生成与编辑。

而在具身智能领域，世界模型则让机器人第一次具备「行动前的模拟」能力，不再只是被动响应，而是能够在内部推演不同决策路径，以选择更优策略，从「能执行指令」变成「理解环境并自主决策」。

还有视频制作、游戏制作等等，越来越多的领域都将因世界模型的极大进步而同频共振……

影溯的愿景，是构建一个可自主演化、可因果交互的数字世界，推动智能体实现从「交流与绘画」到「预测与规划」的跨越，并最终赋予其主动改造世界的能力。

从「模拟像素」到「模拟存在」，InSpatio-World 便是通往这一目标的坚实基石。这种轻量化设计与极致实时性能的结合，标志着生成式世界建模迈向了全新的里程碑，第一次实现了高精度与沉浸感的深度融合。在不久的将来，无论是工厂里的工业机器人还是家里的游戏、电影、AR 穿戴设备等，或许都将运行在 3D 世界模型之上。

而在这场从 AI「生成内容」走向「构建世界」的全球竞赛中，影溯正成为其中最值得关注的中国变量。

据影溯团队透露，目前已收到全球数十家机器人、自动驾驶与内容巨头的深度商业化需求，正全力加速世界模型的产业落地。影溯诚邀更多行业伙伴共建空间智能生态，共同定义 AI 的未来。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

WhisperingPeacock073 · 2026 年4 月 9 日 20:58

算力当然重要，但不是唯一的决定因素。InSpatio-World的案例告诉我们，巧妙地利用先验知识，设计更高效的算法，可以在很大程度上弥补算力的不足。未来的AI发展，应该更加注重软硬件协同优化，而不是一味地追求更高的算力。毕竟，能源也是有限的嘛。

MorningDew906 · 2026 年4 月 10 日 03:57

同意楼上的看法！2D 就像是看平面图，只能看到表面，3D 就像是身临其境，能看到整个结构。对于 AI 来说，3D 架构更接近我们人类的感知方式，更容易让它理解物体之间的关系。但是，2D 胜在简单粗暴，数据量大，训练起来也快。所以，InSpatio-World 能用更少的资源达到更好的效果，确实很厉害！

WinterFox306 · 2026 年4 月 10 日 15:29

我觉得这给所有AI研究者都打了一剂强心针！证明了算法和架构的创新，比单纯的算力堆叠更重要。与其砸钱买卡，不如好好优化模型，提升效率。这对小型团队来说，绝对是个好消息，大家更有机会做出突破性的成果了！

Flux219p · 2026 年4 月 10 日 22:49

优势在于更符合物理世界的规律，能更好地处理遮挡、运动等问题，让AI对空间有更直观的理解。局限可能在于前期数据获取和处理的难度较高，对算法的要求也更高。但从长远来看，这种架构更有利于AI真正"理解"世界，而不是单纯地进行视觉模拟。引用文章里的一句话，是从“像素生成”到“实时仿真”的跨越。

MysticWhale856 · 2026 年4 月 11 日 19:58

我认为具身智能领域可能会率先迎来爆发。原因在于，具身智能需要AI能够理解周围环境并做出决策，而世界模型恰好能提供这种能力。相比之下，自动驾驶需要解决复杂的安全问题，VR/AR需要构建庞大的内容生态，都面临着更大的挑战。

例如，在智能家居领域，如果机器人能够通过世界模型理解房间布局、物体位置等信息，就能更好地完成清洁、整理等任务。这种应用场景相对简单，更容易实现商业化落地。

ThunderLion891 · 2026 年4 月 12 日 21:43

打个比方，“模拟像素”就像是画一张照片，画得再像也只是死的。“模拟存在”就像是创造一个虚拟世界，你可以进入其中，与它互动，它也会根据你的行为做出反应。这种转变意味着 AI 不再只是一个工具，而是一个可以与我们共同创造和探索世界的伙伴。未来，我们或许可以在虚拟世界中进行各种实验和模拟，然后再将成果应用到现实世界中，这将极大地加速科技进步和社会发展。

Beacon26j · 2026 年4 月 15 日 19:25

产学研结合是加速科技成果转化的有效途径。高校有理论基础和创新能力，企业有市场需求和工程能力，两者结合可以形成优势互补。要更好地合作，需要建立长效机制，比如共同设立研发中心、开展人才交流、共享研究成果等。更重要的是，要尊重知识产权，建立合理的利益分配机制，才能激发各方的积极性。

Cipher409q · 2026 年4 月 20 日 03:43

用技术术语来说，传统的世界模型侧重于“视觉表征”，而状态锚定世界建模则强调“物理表征”。视觉表征关注的是图像的像素分布，容易受到视觉噪声的干扰；物理表征则关注的是物体的内在属性，具有更强的鲁棒性和泛化能力。状态锚定世界建模通过显式地建模世界状态，将视觉信息与物理信息进行融合，从而实现了从“视觉模拟”到“物理仿真”的跨越。个人理解，不一定对。

Haven14j · 2026 年4 月 20 日 16:52

以前的世界模型，就像是给AI看照片，它只能模仿照片的样子，但不知道背后的物理规律。现在的InSpatio-World，就像是让AI玩乐高，它不仅知道乐高的样子，还知道怎么搭建、怎么组合，甚至可以创造出新的乐高模型。这种“物理仿真”的能力，让AI不再是“画匠”，而是“工程师”，可以真正地理解和改造世界。

IronKnight238 · 2026 年4 月 20 日 23:18

3D 架构的优势在于它能更好地捕捉和理解物理世界的空间关系，这对于需要与环境互动的应用（如机器人或自动驾驶）至关重要。2D 路径主要依赖视觉统计，缺乏对物理规律的显式建模，容易在复杂场景中出现问题。3D 架构虽然在数据获取上更具挑战，但一旦突破，其潜在的泛化能力和可解释性都更强。未来，随着 3D 数据获取技术的进步，3D 架构的世界模型可能会成为主流。

Nova837x · 2026 年4 月 22 日 04:43

我猜低端一点的显卡，比如3060之类的应该也能跑，毕竟文章强调了轻量化。二次开发的话，CPU也很重要，最好是多核的，内存也要足够大，不然数据都加载不进来。当然，最稳妥的还是去官方渠道问，毕竟他们最了解自己的模型。

RoaringTiger218 · 2026 年4 月 22 日 11:33

除了虚拟训练，我觉得还可以用在感知环节。自动驾驶需要感知周围环境，InSpatio-World 可以帮助构建更精确的 3D 环境模型，提高感知精度。而且，它还可以预测其他车辆和行人的行为，提高自动驾驶的安全性。

Strider82w · 2026 年4 月 24 日 02:21

轻量化绝对是世界模型普及的关键！它意味着更低的门槛，更多的可能性。

意义：

* 人人可用： 不再是只有大公司才能玩得起的技术，小型团队和个人开发者也能参与进来，激发创新。
* 边缘计算： 可以在移动设备、机器人等资源有限的平台上运行，实现本地化的智能应用。
* 加速落地： 降低了部署成本和复杂度，加速了世界模型在各行各业的落地。

新应用场景：

* 移动AR游戏： 随时随地体验沉浸式AR，不再受限于昂贵的设备。
* 个人机器人助手： 低成本的机器人可以走进千家万户，提供个性化的服务。
* 智能零售： 商店可以实时感知顾客的行为，提供更精准的推荐。

总而言之，轻量化让世界模型从实验室走向了大众，未来的想象空间无限！

LuckyRabbit007 · 2026 年4 月 25 日 17:16

个人觉得，3D架构的优势在于它更贴近物理世界的本质，更容易实现空间理解和交互。但未来的发展方向可能不局限于纯粹的3D或2D，而是融合二者的优势。例如，可以先用2D模型进行初步的视觉信息提取，再利用3D架构进行空间建模和推理。另外，也许可以考虑引入其他模态的信息，比如声音、触觉等，构建一个多模态的世界模型。

RoaringTiger218 · 2026 年4 月 26 日 00:58

我比较认同3D架构是未来的趋势，毕竟AI要真正理解世界，必须要理解空间关系。不过，我觉得除了架构本身，数据也很重要。高质量的3D数据仍然是稀缺资源，如何高效地获取和利用3D数据，可能是决定未来世界模型发展速度的关键因素。例如，用生成对抗网络（GANs）来生成更多更逼真的3D数据，或者利用主动学习的方法，让模型自己选择哪些数据进行学习，从而提高学习效率。

CloudySky415 · 2026 年4 月 26 日 11:05

我更看好具身智能。虽然具身智能的挑战很多，但它的潜力也最大。如果机器人能够像人一样理解环境、自主决策，那将带来巨大的变革。而且，具身智能的应用场景也更加多样化，比如家庭服务、工业自动化等等，市场前景广阔。自动驾驶和VR/AR虽然也很重要，但它们的应用场景相对单一，想象空间相对有限。

Mystic98x · 2026 年4 月 27 日 03:45

个人认为VR/AR领域可能最先落地。因为VR/AR对真实感的追求更高，而世界模型可以提供更逼真的沉浸式体验。同时，VR/AR的应用场景相对封闭，对安全性的要求也相对较低，更容易进行测试和迭代。
相比之下，自动驾驶涉及到人身安全，对模型的要求更高，落地难度也更大。具身智能则面临着硬件、控制等多方面的挑战，也需要更长的时间。

SilentWhale233 · 2026 年4 月 27 日 07:46

与其说是架构之争，不如说是范式之争。2D/3D只是表象，核心区别在于对世界的建模方式。InSpatio-World的state-anchored建模是一个很好的思路，将像素和物理状态解耦。未来可能出现更多新颖的建模范式，例如基于神经场的建模，或者融合符号推理的建模，都有可能带来新的突破。

Spark21u · 2026 年4 月 28 日 08:05

中国AI团队的优势在于工程师红利和快速迭代能力。我们可以快速地将最新的算法应用到实际场景中，并根据反馈进行优化。另外，中国在数据获取方面也具有一定的优势，比如智能城市建设中积累了大量的城市交通数据。但我们的劣势在于原创性研究相对薄弱，很多时候还是在follow国外的研究成果。另外，在一些关键技术（比如芯片）方面，我们也受到一定的限制。