CVPR 2026观察:视觉生成与具身智能正在走向系统级重构

CVPR 2026两场圆桌聚焦视觉生成、3D/4D、世界模型与具身智能落地。

原文标题:CVPR一线|预约周末这两场直播,直击视觉与具身智能的技术临界点

原文作者:机器之心

冷月清谈:

机器之心在 CVPR 2026 现场观察到两条技术主线:一是视觉智能从像素合成、内容创造继续迈向时空交互,涉及视觉生成基础模型、端侧生成式计算摄影、图像视频编辑以及 3D/4D 重建与生成;二是具身智能从空间表征、世界模拟延伸到闭环决策,空间基础模型、世界模型、VLA 与物理 AI 基础设施成为重点。围绕这些方向,机器之心将在北京时间 6 月 6 日和 6 月 7 日上午分别举办两场专家圆桌直播,并设置 QA 互动环节,讨论视觉生成和具身智能从研究热点走向真实系统落地的关键问题。

怜星夜思:

1、视觉生成从“做得像”走向“可控、可编辑、可交互”,你觉得最难突破的是哪一步?
2、端侧实时生成和云端大模型生成会长期并存吗?哪些场景更适合放在手机、AR眼镜或机器人本地跑?
3、世界模型、VLA、空间基础模型这些概念很热,但它们离真正好用的机器人还有多远?
4、CVPR 这类顶会越来越关注具身智能和物理 AI,这是不是意味着计算机视觉的研究边界正在被重新定义?

原文内容

当像素级精细可控重新成为视觉生成的「圣杯」,当端侧设备开始实时「脑补」三维世界,当机器人不再满足于「看懂」画面而是要求「预判」物理因果——CVPR 2026 在美国丹佛揭示的,是一场从「算法精度竞赛」到「系统范式重构」的深层跃迁。


作为 CVPR 的长期关注者与深度追踪者,机器之心观察到今年 CVPR 两条清晰的主线:


  • 视觉智能正沿着「像素合成 → 内容创造 → 时空交互」的链路全面升维,从潜空间扩散回归端侧实时生成,从静态二维创作迈向动态四维时空编辑;


  • 具身智能则打通了从空间表征、世界模拟到闭环决策的完整链条,空间基础模型、世界模型与 VLA 的协同成为「决策有用」的关键支点。


两条主线交汇之处,正是下一代 AI 从数字世界走向物理世界的临界点。为此,我们特别在 CVPR 2026 现场策划两场专家技术圆桌直播,邀请学界与产业界一线研究者深度拆解这些正在发生的技术变革。



在 6 月 6 日(北京时间)的圆桌直播中,4 位嘉宾将会围绕视觉生成基础模型与系统架构」「端侧生成式计算摄影」「生成式图像视频编辑与内容生产」「3D/4D 重建及生成」等议题展开深度探讨。



 6 月 7 日(北京时间)的圆桌直播中,4 位嘉宾将会围绕空间基础模型」「世界模型」「具身智能体与 VLA」「物理 AI 基础设施」等议题展开深度探讨。


直播时间

  • 圆桌一:北京时间 6 月 6 日 09:00-11:00

  • 圆桌二:北京时间 6 月 7 日 09:00-11:00


直播预约



两场直播均设有 QA 互动环节,欢迎预约观看并在评论区与嘉宾交流讨论。


我反而觉得最难的是评价体系。生成模型现在经常是肉眼看着不错,但到底哪里可控、哪里不可信,很难量化。工业界要的是稳定交付,不是朋友圈惊艳图。没有靠谱 benchmark,很多进步最后都变成了发布会话术。

2 个赞

这个问题可以类比游戏:本地渲染保证你别卡成 PPT,云端资源负责大场面。端侧生成适合“马上要结果”的任务,云端适合“给我整点大的”。如果机器人还得问云端“我能不能迈这一步”,那它大概率已经摔了。

2 个赞

回答“CV 研究边界是否被重新定义”:是的。过去 CV 很多任务是识别、检测、分割,核心是理解图像;现在更多问题变成理解空间、预测变化、支撑行动。视觉不再只是感知模块,而是机器人、AR、自动驾驶和生成系统中的基础接口。

1 个赞

离真正好用的机器人,我的判断是:扫地机器人级别已经普及,叠衣做饭级别还要等等,能帮我写周报顺便倒垃圾的机器人请立刻上市。现在很多 demo 看起来像钢铁侠,落地后可能还是“别碰我家花瓶侠”。

3 个赞

从学术角度看,当前瓶颈主要在数据和泛化。互联网给了语言模型海量文本,但机器人缺少同等规模、同等多样性的交互数据。仿真能补一部分,但 sim-to-real 仍然有差距。没有足够多真实世界闭环数据,世界模型很难覆盖长尾情况。

1 个赞

我觉得不是 CV 变了,而是大家终于承认“看见”不等于“理解”。一个模型能识别椅子,不代表它知道椅子能不能坐、推一下会不会倒、挡不挡路。具身智能把视觉研究从像素语义推向物理语义,这个变化挺大。

2 个赞