英伟达发布 Cosmos 3:面向机器人与自动驾驶的全模态物理 AI 模型开源

英伟达发布 Cosmos 3,瞄准机器人、自动驾驶等物理 AI 场景,并补齐智能体开发工具链。

原文标题:英伟达甩出物理 AI 王炸!Cosmos 3 全模态模型开源,Agent Tookit 补齐工具短板

原文作者:AI前线

冷月清谈:

英伟达在中国台北 GTC 上发布 NVIDIA Cosmos 3,定位为面向物理世界的开放基础模型,支持文本、图像、视频、环境音与动作等模态,重点服务机器人、智能汽车、工业视觉 AI 等场景。其核心是混合 Transformer 架构,将物理推理与生成能力结合,用于理解物体交互、时空运动和环境关系,并生成更符合物理规律的视频与动作轨迹。英伟达同时推出 Cosmos 3 Super、Nano 和即将上线的 Edge 版本,覆盖高精度研发、快速原型迭代与边缘推理部署。围绕生态建设,英伟达成立 Cosmos Coalition 联盟,联合机器人、世界模型和 AI 企业推进开放世界模型落地。文章还提到 NVIDIA Agent Toolkit 中新增物理 AI 智能体技能,可调用 Cosmos、Omniverse、Isaac、Metropolis、Jetson 等工具链,试图把物理 AI 开发流程标准化、自动化。

怜星夜思:

1、Cosmos 3 这种“物理 AI 模型”,和普通多模态大模型最大的区别到底在哪?
2、如果物理 AI 训练可以从几个月压到几天,机器人行业会最先发生什么变化?
3、英伟达把 Cosmos、Omniverse、Isaac、Jetson 和 Agent Toolkit 串起来,会不会让开发者更依赖它的生态?
4、物理 AI 开源后,安全问题会不会比文本大模型更麻烦?

原文内容

作者 | 冬梅

大模型的竞争,正从纯文本、多模态内容生成,彻底转向 物理世界的智能落地

昨天,在 2026 中国台北 GTC 大会上,英伟达正式官宣重磅产品——NVIDIA Cosmos 3,这款面向物理 AI 的开放世界基础模型,凭借全新混合 Transformer 架构,打通视觉推理、世界生成、动作预测三大核心能力,成为全球首款完全开放的全模态物理 AI 模型。与此同时,英伟达牵头成立全球开发者协作联盟,正式拉起物理 AI 生态阵营,宣告物理 AI 规模化落地时代加速到来。

不同于当下主流聚焦内容创作的多模态大模型,Cosmos 3 的核心定位精准锚定 真实物理世界,原生支持文本、图像、视频、环境音、动作五大模态的理解与生成,且具备顶尖的物理规律精准度。

最关键的是,它彻底重构了物理 AI 的开发效率,将行业传统数月的训练、评估周期,直接压缩至数天,为机器人、智能汽车、工业视觉 AI 等领域带来代际升级可能。

架构革新:破解物理 AI 落地核心痛点

长期以来,物理 AI 落地始终受制于两大行业难题:一是真实场景训练数据稀缺,二是仿真系统碎片化,导致模型难以在复杂现实环境中泛化适配,无法稳定落地。而 Cosmos 3 的核心价值,正是通过架构创新破解这一行业瓶颈。

此次全新搭载的 混合 Transformer(Mixture-of-Transformers)架构,是英伟达的突破性技术沉淀。该架构创新性融合推理 Transformer 与专家生成 Transformer 双模块,先通过推理模块精准解析现实场景中物体交互、时空运动、环境关联等核心物理逻辑,再依托生成模块输出贴合物理规律的视频画面与动作轨迹,彻底改变了传统模型“生成优先、逻辑缺失”的弊端。

训练层面,Cosmos 3 依托海量高质量数据集完成迭代,囊括数十亿条文本、图像、视频、环境音及机器人动作轨迹样本,构建起完备的物理世界知识体系。对开发者而言,这意味着无需海量定制化数据、无需高额训练算力成本,就能基于预训练模型快速搭建稳定、可泛化的物理 AI 系统,大幅降低行业落地门槛。

凭借硬核技术实力,Cosmos 3 已拿下多项权威基准测试榜首。

在开放模型赛道中,其包揽 Artificial Analysis、Physics-IQ 等榜单的世界生成精度第一,RoboLab、RoboArena 动作策略测评第一,以及 VANTAGE-Bench、TAR 视觉理解排行榜首位,全方位领跑物理 AI 核心能力。

为适配不同开发者、不同落地场景的差异化需求,英伟达推出分层版 Cosmos 3 产品矩阵,覆盖高精度研发、快速迭代、边缘实时推理全流程:

Cosmos 3 Super:定位高端高精度场景,主打极致物理仿真精度与生成质量,适配机器人、智能汽车等对安全性、精准度要求严苛的模型后训练研发场景;

Cosmos 3 Nano:主打轻量化高效迭代,可在极短时间内完成高质量视频生成与动作推理,适合开发者快速验证算法、迭代原型方案;

Cosmos 3 Edge(即将上线):聚焦终端落地,专为实时边缘推理优化,将打通物理 AI 从云端训练到终端部署的最后一环。

功能层面,Cosmos 3 可一站式充当三大核心工具:具备全模态跨维度推理的视觉语言模型、可模拟物理环境、预测世界状态的仿真训练模型、支撑机器人定制任务训练的动作骨干网络,全方位覆盖物理 AI 开发全流程。

技术突破之外,英伟达同步祭出生态大招,正式成立 NVIDIA Cosmos Coalition 全球协作联盟,集结全球顶尖世界模型研发团队与 AI 开发者,共同推动下一代开放世界模型的技术迭代与落地普及。

首批创始成员阵容堪称行业顶配,涵盖 Agile Robots、Black Forest Labs、Runway、Skild AI 等全球知名 AI 与机器人企业。联盟将搭建开放共享的技术生态,成员可双向输出模型、算法与测评技术,同时共享 Cosmos 3 核心技术、专属训练工具与 NVIDIA DGX Cloud 云端算力基础设施,开展大规模模型训练与迭代。

这种开放协作模式,将有效解决当前物理 AI 行业技术分散、兼容性差、迭代缓慢的痛点,通过生态合力加速技术创新,统一行业技术标准,推动物理 AI 从单点技术突破走向规模化落地。

目前,英伟达 Cosmos 平台已形成成熟的产业落地能力,平台内置机器人动力学、人体运动、辅助驾驶、空间推理等多领域专项数据集,同时搭载神经场景重建、缺陷图像生成、视频增强等全新 AI 智能体技能,全面赋能工业、出行、机器人等场景。

产业端已有大量头部企业率先入局落地:机器人领域集结三星、LG 电子、Doosan Robotics、Agile Robots 等知名厂商;智能汽车领域,理想汽车已依托该平台开展相关技术研发;视觉 AI 领域,Centific、Milestone Systems 等企业已基于其搭建工业 AI 与智能空间应用方案,物理 AI 的商业化图景愈发清晰。

补齐工具短板,推出开源 Agent Toolkit

基础模型之外,英伟达进一步补齐开发工具短板,正式推出 NVIDIA 物理 AI 智能体技能(归入 NVIDIA Agent Toolkit 体系),完成“基础模型 + 自动化开发工具”的双层布局。随着 AI 智能体从单纯编写代码,升级为统筹全流程开发任务的核心载体,这套工具链让智能体可直接调用英伟达全系技术资产,实现物理 AI 开发全链路自动化。

NVIDIA 创始人兼 CEO 黄仁勋对此表示:“AI 智能体正在彻底改变软件开发,而这一转变正迈向物理 AI,并进一步扩展到那些将改变交通、制造、医疗和机器人技术的系统中。当智能体可以直接使用 NVIDIA 库、模型和框架时,物理 AI 开发速度将大幅提升,使开发者能够以惊人的速度构建未来的机器人、智能汽车和工业系统。”

英伟达已完成全栈物理 AI 技术的“智能体适配改造”,构建起一套可被 AI 智能体调用的完整技术矩阵:以 Cosmos 世界基础模型承载物理推理与场景生成,以 Omniverse 支撑仿真与数字孪生,以 Isaac 赋能机器人仿真与学习,以 Metropolis 赋能视觉 AI、Alpamayo 适配辅助驾驶场景,再结合 Jetson 平台打通边缘 AI 部署,形成端到端技术闭环。

此次全新上线的物理 AI 智能体技能,核心价值是 标准化、自动化工作流。它将复杂的物理 AI 开发流程,拆解为 AI 智能体可重复执行的标准化指令,明确工具调用规则、输出标准与验证逻辑,无需人工反复调试。同时,开发者可依托 NVIDIA NemoClaw 蓝图与 OpenShell 运行时,安全搭建、部署自主智能体,依托本地与云端的策略管控机制,保障开发过程的安全与隐私合规。

英伟达锁定物理 AI 时代话语权

从底层 Cosmos 3 世界基础模型,到 Agent Toolkit 智能体自动化工具链,再到 Omniverse、Isaac、Jetson 等全栈技术底座,叠加全球开发者联盟生态与各行业头部企业的落地实践,英伟达已构建起完整的物理 AI 产业闭环。

当行业还在聚焦多模态内容生成、虚拟 AI 迭代时,英伟达已经完成物理 AI 从技术理论、模型创新、工具赋能到产业落地的全链条布局。这套开放、高效、可规模化的解决方案,将推动 AI 彻底走出虚拟场景,深度融入制造、交通、医疗、机器人等实体产业,开启 具身智能赋能实体经济 的全新周期。

会议推荐

企业级 Agent 落地,绕不开 4 个真实的工程问题!如何在 Agent 安全性和可用性之间找到平衡点?Agent 需要什么样的记忆系统才能真正理解上下文?如何通过算法压榨实现智力增量与成本控制的极致平衡?多 Agent 协作,如何做到可观测、可治理、可控制?6.26-27 AICon 上海站,国内头部公司的 Agent 实践,一次说透。

今日荐文

图片
你也「在看」吗?👇

针对“区别在哪”这个问题,学术一点说,关键差异在于目标函数和评估方式。内容型多模态模型主要追求语义一致性和视觉质量,物理 AI 则需要满足时空连续性、动力学约束、因果交互关系以及可执行动作规划。也就是说,它不只要生成“看起来合理”的世界,还要生成“能被机器人或车辆拿去行动”的世界。

1 个赞

关于这个问题,我的暴论是:机器人行业会先进入“PPT 变多,demo 变真”的阶段。以前很多 demo 靠工程师手搓,现在如果世界模型和仿真工具成熟,demo 的可复现性会好一些。但离真正商用,还得看它摔多少次、赔多少钱、维修麻不麻烦。

2 个赞

从工程角度看,物理 AI 的风险主要在闭环控制。一旦模型输出动作,系统就需要判断这个动作是否满足安全约束,比如速度、力矩、碰撞距离、人员位置等。开源本身不是原罪,但如果缺少标准化测试、红队评估和运行时监控,确实比聊天机器人危险得多。

2 个赞