极佳视界GigaWorld-1登顶世界模型权威榜单,综合性能超越谷歌、英伟达

GigaWorld-1登顶WorldArena,在物理遵循、3D准确度和视觉质量上全面领先。

原文标题:世界模型再获全球第一!极佳视界GigaWorld-1震撼登场,超越谷歌、英伟达

原文作者:机器之心

冷月清谈:

极佳视界发布新一代具身世界模型 GigaWorld-1,并在世界模型权威评测基准 WorldArena 中获得全球第一,综合成绩也是榜单中唯一突破 60 分的模型。文章强调其在物理遵循、3D 准确度和视觉质量三项核心指标上均明显领先,显示出模型在“看得真、算得准、符合物理规律”三个层面的综合能力。

从技术路线看,GigaWorld-1 属于动作控制世界模型(AC-WM),核心特点是结合显式动作建模与可微分物理引擎:前者提升视频生成与动作预测中的几何一致性,后者增强对机械臂参数和复杂物理交互的真实模拟能力。再配合上万小时真实机器人操作视频训练,模型在开放场景的泛化和动作遵循能力上进一步加强。

文章还介绍了极佳视界的整体布局。公司聚焦“世界模型驱动的物理世界通用智能”,产品覆盖世界模型平台 GigaWorld、具身基础模型 GigaBrain 以及相关软硬件体系。除模型评测成绩外,团队也在具身基础模型、世界动作模型、自我进化训练范式等方向持续推进,并已开源部分代码和数据。

此外,文章提到极佳视界近期完成近 10 亿元 Pre-B 轮融资,且此前获得华为哈勃投资支持,反映出资本市场对世界模型和具身智能方向的高度关注。

怜星夜思:

1、问题1:WorldArena拿了第一,是否就意味着GigaWorld-1在真实机器人落地上已经建立了明显优势?榜单成绩和实际部署之间,你更看重哪一部分?
2、问题2:文章里反复提到“显式动作建模”和“可微分物理引擎”,这套技术组合为什么可能比单纯做视频生成更适合具身智能?
3、问题3:如果世界模型真能把训练效率提高10倍、推理速度提高10倍,这对具身智能行业最先改变的会是什么?是研发方式、商业化节奏,还是人才结构?
4、问题4:极佳视界同时强调开源、评测夺冠和融资进展,这三件事放在一起看,你觉得它更像技术公司、平台公司,还是在提前卡生态位?

原文内容

图片
机器之心发布

近日,极佳视界(GigaAI)在具身智能领域呈现「破竹之势,连续交出多份世界级答卷:全栈自研的具身基础大模型 ,登顶 RoboChallenge 全球榜首;依托世界模型实现自我进化的新一代原生范式  重磅登场,在复杂长时程真机任务中实现数小时零失误;首创的更是首次实现 10 倍推理速度与 10 倍训练效率的跨越式提升,任务成功率大幅上涨 30%。


在这些里程碑式突破的强力支撑下,极佳视界的 GigaWorld 系列具身世界模型再次迎来重磅升级!其最新力作 GigaWorld-1 在世界模型领域的顶级权威评测基准 WorldArena 中,一举击败谷歌、英伟达、阿里等国际顶尖科技巨头与学术机构的模型,荣登全球榜首,并成为榜单中唯一一个综合得分突破 60 分大关的具身世界模型。



尤其在三大核心维度上,GigaWorld-1 展现出了断层式的领先优势: 


  • Physics Adherence(物理遵循)相比第二名大幅提升 16%; 

  • 3D Accuracy(3D 准确度)更是取得了逼近满分的惊人成绩;

  • Visual Quality(视觉质量)同样遥遥领先。 


这标志着 GigaWorld-1 已经真正蜕变为一个「视觉真实、几何精准、物理准确」的全能型具身世界模型。



顶流同台竞技:

在最严苛的「试金石」中脱颖而出


作为世界模型领域公认的「试金石」,WorldArena 评测基准由清华大学联合普林斯顿大学、新加坡国立大学、北京大学、香港大学、中国科学院、上海交通大学以及中国科学技术大学等 8 所国内外顶尖高校及科研机构的权威专家共同打造。该基准摒弃了单一维度的片面测试,构建了包含 16 项细分核心指标和 3 大真实应用任务的立体评估体系,旨在对具身世界模型的感知精度、物理规律理解、三维空间认知以及动作预测与落地能力进行最严苛的「压力测试」。


正是由于其极高的学术严谨性与行业公信力,WorldArena 吸引了全球几乎所有头部世界模型团队同台竞技,首批参评名单涵盖了谷歌、英伟达、阿里等科技巨头。2026 年 3 月 25 日,极佳视界团队的 GigaWorld-1 在众多顶尖强手的激烈角逐中,凭借硬核的技术实力脱颖而出,成功摘得桂冠!



硬核技术解密:

显式动作建模与

可微分物理引擎的完美融合


GigaWorld-1 缘何能取得如此傲人的成绩? 


从技术路线上看,GigaWorld-1 是一款专为具身场景打造的 AC-WM(Action-Conditioned World Model,动作控制世界模型)。相较于传统的世界模型,GigaWorld-1 深度继承并发展了极佳视界在 2025 年 7 月发布的 EmbodieDreamer 核心架构。


该方案不仅引入了显式的动作建模机制,从根本上保证了视频生成过程中的几何一致性;更创新性地融入了可微分物理引擎,从而获取精准的机械臂物理参数,以实现对复杂物理交互过程的真实模拟与严格遵循。


在此前沿架构的基础上,极佳视界进一步引入了团队长期积累的上万小时高质量真实机器人操作视频数据进行训练,极大地增强了模型在开放场景下的泛化能力与高精度的动作遵循表现。


极佳视界是谁?

为什么能做到世界第一?


2026 年 3 月 5 日,极佳视界宣布完成近 10 亿元 Pre-B 轮融资,投资方阵容堪称豪华——中芯聚源、上海半导体产投基金、临芯资本、星源资本、万林国际等顶尖芯片和汽车产业资本领投,中金资本、苏创投、华强资本等重磅国资平台和知名财务机构跟投。


然而,这并非极佳视界首次获得资本追捧。早在 2025 年 11 月,华为旗下哈勃投资就已联合华控基金,完成了对极佳视界的亿元级 A1 轮战略投资。华为对世界模型关注已久,将世界模型列为未来智能世界 2035 年十大技术趋势之首。当谷歌、英伟达、特斯拉等全球科技巨头纷纷布局世界模型时,华为通过哈勃投资,在中国市场找到了最具潜力的标的——极佳视界。


极佳视界是国内第一家布局「世界模型」的公司,在世界模型用于「模型架构」和「数据引擎」两个方面都拥有行业领先的深入积累。公司定位清晰:聚焦物理 AI,致力于「世界模型驱动的物理世界通用智能」。其产品矩阵包括世界模型平台 GigaWorld、具身基础模型 GigaBrain、通用具身本体 Maker 等物理 AI 全栈软硬件产品。


但真正让极佳视界脱颖而出的,是其堪称「梦之队」的核心团队:


  • 创始人兼 CEO 黄冠,清华大学自动化系创新领军工程博士,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人 & 算法副总裁,并拥有微软亚洲研究院、三星中国研究院等顶尖研究机构工作经历。黄冠完整经历了过去十年物理 AI 的技术和产业发展历程,多次带领团队获得全球权威 AI 比赛世界冠军,发布多个全球知名 AI 成果。


  • 联合创始人兼首席科学家朱政智源青年学者,发表顶级论文 70 余篇,引用近 2 万次,多篇代表作产生了巨大影响力,连续 4 年入选全球前 2% 顶尖科学家榜单,多次获得吴文俊自然科学一等奖、最佳学生论文奖、CCF 杰出论文奖等荣誉,多个顶会领域主席,多项竞赛冠军。


  • 联合创始人孙韶言曾担任阿里云总监,地平线数据闭环产品线总经理,在物理世界超大规模数据闭环产品和架构方面拥有行业领先的经验。主导了业内首个智能驾驶数据闭环系统的落地,有效提升了数据的处理效率,为智能驾驶技术的发展提供了重要的基础设施支持。


  • 合伙人兼工程副总裁毛继明拥有超过 16 年的仿真/工程/数据/分布式架构方向的经验,曾担任百度 Apollo 仿真和工程负责人,曾担任百度、赢彻等 T10 级别架构师,主导多个自动驾驶与世界模型核心项目的技术开发与落地。在高质量数据生成、端到端自动驾驶架构设计以及分布式系统优化领域有着深厚的积累。


极佳视界模型核心团队还包括博士期间超10篇顶会一作的世界模型顶尖科学家、超过10年物理AI全栈量产经验的产业专家、华为天才少年获得者、万卡集群线性加速的顶尖算法和infra专家等,是行业少有的同时拥有顶尖的「新一代物理AI全面技术前沿创新能力」和「传统物理AI全栈系统量产经验」的全栈团队。


这支团队完整经历了 CV、自动驾驶、具身基模、世界模型等物理 AI 过去十年的发展历程,并在每个阶段都做出了行业领先的世界级成果。


极佳视界的技术护城河建立在「世界模型 × 具身大脑」的双轮驱动战略上。在世界级的权威测评榜单中,极佳视界已拿到了具身大脑和世界模型的双料冠军。


世界模型平台 GigaWorld:物理世界的「数字沙盒」


GigaWorld 是极佳视界自研的世界模型平台,能模拟物理世界运行规律,生成高保真合成数据。与传统仿真器相比,GigaWorld 通过几何一致、物理准确的世界模型建模,生成高保真、可控、多样化的具身交互数据,实现「数据放大」。这使得所训练的 VLA 模型在新纹理、新视角、新物体位置三大泛化维度上均实现近 300% 的性能提升。


更关键的是,GigaWorld 能带来 10-100 倍的效率提升。在具身方向,GigaWorld-0 是全球首次让具身世界模型在高水平具身基模上发挥核心价值;在驾驶方向,DriveDreamer 系列是全球范围内最早将世界模型用在物理世界的系列开创工作。


具身基础模型 GigaBrain:机器人的「通用大脑」


GigaBrain 是极佳视界开发的端到端视觉-语言-动作基础模型,堪称机器人的「通用大脑」。在全球目前规模最大的真机评测比赛中,极佳视界的开源模型 GigaBrain-0.1 超越 Pi0.5 等众多模型,获得全球第一



后续发布的 GigaBrain-0.5M* 则是全球首个基于世界模型的强化学习实现高效学习和自我进化的具身基模,提出基于世界模型的强化学习范式,并采用迭代式四阶段闭环训练流程,在高难度长时程任务中,面对折纸盒、咖啡制备、衣物折叠等包含多阶段操作、精细感知与持续决策的复杂场景,GigaBrain‑0.5M* 均实现接近 100% 的任务成功率,并可稳定复现成功执行轨迹,充分彰显出卓越的策略鲁棒性。



全面开源赋能:

半月狂揽 16K 下载,

鼎力支持 CVPR 挑战赛


极佳视界始终坚信开源开放的力量。目前,GigaWorld-1 的核心代码与部分数据集已开源,并作为官方 Baseline 强力支持即将于 3 个月后在美国举行的 ,积极赋能全球开发者,推动具身智能生态的繁荣发展。


在开源后的短短半个月内,在 Huggingface 平台的下载量便火速突破 16,000 次,足见学术界与工业界对其技术实力的高度认可,以及在开发者社区中的巨大影响力。


  • 比赛官网: https://gigaai-research.github.io/GigaBrain-Challenge-2026/

  • 开源代码: https://github.com/open-gigaai/CVPR-2026-Workshop-WM-Track

  • 开源模型、数据: https://huggingface.co/collections/open-gigaai/cvpr-2026-worldmodel-track



持续进化:

打造 AGI 走进物理世界的最坚实基石


在模型架构方面,极佳视界发布 GigaBrain-0.5M*,是全球首个基于世界模型的强化学习实现高效学习和自我进化的具身基模;极佳视界发布 GigaWorld-Policy,是全球首次实现「世界-动作模型 WA」实时性、成功率、训练效率的全面突破,让「世界-动作模型」真正开始进入大规模 Scaling 阶段。


在数据引擎方面,极佳视界持续引领具身和驾驶世界模型作为新一代模拟器的技术突破和产业落地。 作为全球领先的世界模型团队,极佳视界一直深耕并引领具身世界模型技术的演进。纵观 GigaWorld 系列的发展历程,每一次迭代都代表着行业的重大突破:


  • GigaWorld-0全球首个验证「世界模型生成数据能够有效提升真实物理机器人(VLA)性能」的里程碑式工作,其 GitHub 开源代码斩获 1.5k+ Star,奠定了技术验证的基础。


  • GigaWorld-1:当前全球最领先的 AC-WM。在世界模型领域权威评测 WorldArena 榜单中登顶全球第一,全面超越国际顶尖巨头,成为唯一综合得分 60+ 的具身世界模型。


  • GigaWorld-Policy速度最快、性能最强、效率最高的世界动作模型(WAM)。实现了对主流 WAM 推理效率和性能的全面碾压:实测数据显示,GigaWorld-Policy 实现了 10 倍推理速度与 10 倍训练效率的跨越式提升,同时任务成功率大幅上涨 30%,标志着具身智能正式迈入由世界模型驱动的新纪元。


数据引擎(Data Engine),到闭环仿真器(AC-WM),再到世界动作模型(WAM),极佳视界持续引领世界模型和具身智能基础设施的迭代与跃升,致力于为通用人工智能(AGI)走进物理世界打造最坚实的数据和架构基石。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

大胆预测一波!如果世界模型真的发展起来,以后的Siri可能就不是只会查天气、设闹钟了,而是可以帮你做饭、带娃,甚至可以帮你规划人生!细思极恐啊! 不好好学习,以后真的要被AI取代了!

我更关心的是开源的质量。如果开源的代码质量不高,或者文档不齐全,那反而会增加学习成本,降低开发效率。所以,极佳视界在开源的同时,还需要提供良好的技术支持和社区维护,才能真正发挥开源的价值。就像提供了一把宝剑,还得教大家怎么用才行。

我觉得物理遵循是最关键的。如果AI不能准确理解和模拟物理规律,那它在真实世界中的任何操作都可能出错,导致不可预测的后果。3D准确度和视觉质量也很重要,但它们更偏向于感知层面,而物理遵循直接关系到行动的合理性和安全性。

从工程角度来看,3D准确度提升带来的收益可能短期内更明显,高精度的环境感知是实现精细操作的前提。物理遵循更多的是长期价值,它关系到模型对世界的理解深度,是实现真正智能的关键。视觉质量则是锦上添花,能提升用户体验,但不是核心功能。

开源绝对是好事!可以加速整个领域的发展。更多的人参与进来,可以促进技术的交流和创新,避免重复造轮子。对于极佳视界来说,可以吸引更多的人才,扩大影响力,建立行业标准。但是,开源也需要注意知识产权保护,避免被滥用。

开源就像把蛋糕分享给大家,虽然自己分到的少了点,但大家都来做蛋糕,整个盘子就大了。极佳视界开源,可以让更多人参与进来,共同推动技术进步,这对整个行业都是有益的。而且,开源可以促进社区的形成,让大家一起解决问题,共同成长。

我是一个做游戏开发的,这种技术如果能应用到游戏里,那游戏体验肯定会大幅提升。想想看,游戏里的物理效果会更加真实自然,玩家的互动也会更加自由,这绝对会给游戏行业带来一场革命。

会不会存在一种可能,其他公司基于你的开源代码,快速迭代,然后超越了你?到时候会不会很尴尬?不过话说回来,技术的进步本来就是你追我赶,长江后浪推前浪,这样才能推动整个行业发展嘛。

优势在于提高了模拟的精度和真实性。它可以更准确地模拟力、摩擦等物理现象,使得在仿真环境中训练的模型可以直接迁移到真实机器人上。如果仿真环境足够真实,也许我们能训练出真正聪明的机器人。

这三个都很重要,很难说哪个最关键。但如果非要选一个,我选物理遵循。因为具身智能最终是要在物理世界中行动的,如果不能准确模拟物理规律,那再好的视觉效果和 3D 精度也只是空中楼阁,没法真正落地应用。当然,其他两个也很重要,都是相辅相成的。

我个人觉得视觉质量最重要。你想想,如果模型生成的画面都是模糊不清、扭曲变形的,那机器人怎么能准确地感知周围的环境呢?感知都做不好,其他方面再强也没用。而且,现在很多研究都表明,高质量的视觉输入对于模型的训练至关重要。

除了技术大牛,我觉得一个优秀的AI团队还需要有:
1. 产品经理: 懂用户需求,能把技术转化为实际产品。
2. 工程化专家: 能把算法落地,解决性能、稳定性等问题。
3. 商业化人才: 知道怎么把产品卖出去,找到合适的商业模式。
4. 数据标注员: 数据是AI的基础,高质量的数据标注至关重要。
总之,AI不是闭门造车,需要各方面的人才共同努力。

我认为是视觉质量!想想现在火热的AI绘画,再结合具身智能,如果能有个高质量的视觉呈现,那能做的事情就太多了,比如远程临场指导、游戏互动等等,感觉这才是最快能商业落地的点。而且,漂亮的画面也能吸引更多人关注嘛!

数据质量绝对是世界模型的生命线!垃圾数据进,垃圾模型出。如果我来收集数据,我会特别关注以下几点:一是数据的多样性,要覆盖各种场景和操作;二是数据的精确性,尽量避免噪声和错误;三是数据的标注,要清晰地描述物体的属性和动作。三者兼备,才能喂养出一个强大的世界模型。

回答问题2:我个人挺认同这个方向。过去很多世界模型容易陷入一个问题:看着真,但拿去控制不一定真有用。加动作建模和物理约束,相当于逼模型别只做视觉特效,而是朝“可执行的预测器”去进化。对于机器人、自动驾驶这种场景,这种偏硬核的路线可能反而更靠谱。

回答问题4:我的理解是,三样都要,但目的还是别让自己变成“又一个榜单公司”。现在AI圈子很容易今天第一、明天被超。真正难的是把冠军成绩变成开发者习惯、客户信任和产业接口。要是开源社区真做起来了,那它的护城河就不只是论文分数了。