CVPR 2026观察：视觉生成与具身智能正在走向系统级重构

almosthuman2014 · 2026 年6 月 2 日 16:02

CVPR 2026两场圆桌聚焦视觉生成、3D/4D、世界模型与具身智能落地。

原文标题：CVPR一线｜预约周末这两场直播，直击视觉与具身智能的技术临界点

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651036489&idx=2&sn=db0cddc97daf58865eb376a816535116&

冷月清谈：

机器之心在 CVPR 2026 现场观察到两条技术主线：一是视觉智能从像素合成、内容创造继续迈向时空交互，涉及视觉生成基础模型、端侧生成式计算摄影、图像视频编辑以及 3D/4D 重建与生成；二是具身智能从空间表征、世界模拟延伸到闭环决策，空间基础模型、世界模型、VLA 与物理 AI 基础设施成为重点。围绕这些方向，机器之心将在北京时间 6 月 6 日和 6 月 7 日上午分别举办两场专家圆桌直播，并设置 QA 互动环节，讨论视觉生成和具身智能从研究热点走向真实系统落地的关键问题。

怜星夜思：

1、视觉生成从“做得像”走向“可控、可编辑、可交互”，你觉得最难突破的是哪一步？
2、端侧实时生成和云端大模型生成会长期并存吗？哪些场景更适合放在手机、AR眼镜或机器人本地跑？
3、世界模型、VLA、空间基础模型这些概念很热，但它们离真正好用的机器人还有多远？
4、CVPR 这类顶会越来越关注具身智能和物理 AI，这是不是意味着计算机视觉的研究边界正在被重新定义？

原文内容

当像素级精细可控重新成为视觉生成的「圣杯」，当端侧设备开始实时「脑补」三维世界，当机器人不再满足于「看懂」画面而是要求「预判」物理因果——CVPR 2026 在美国丹佛揭示的，是一场从「算法精度竞赛」到「系统范式重构」的深层跃迁。

作为 CVPR 的长期关注者与深度追踪者，机器之心观察到今年 CVPR 两条清晰的主线：

视觉智能正沿着「像素合成 → 内容创造 → 时空交互」的链路全面升维，从潜空间扩散回归端侧实时生成，从静态二维创作迈向动态四维时空编辑；

具身智能则打通了从空间表征、世界模拟到闭环决策的完整链条，空间基础模型、世界模型与 VLA 的协同成为「决策有用」的关键支点。

两条主线交汇之处，正是下一代 AI 从数字世界走向物理世界的临界点。为此，我们特别在 CVPR 2026 现场策划两场专家技术圆桌直播，邀请学界与产业界一线研究者深度拆解这些正在发生的技术变革。

在 6 月 6 日（北京时间）的圆桌直播中，4 位嘉宾将会围绕「视觉生成基础模型与系统架构」「端侧生成式计算摄影」「生成式图像视频编辑与内容生产」「3D/4D 重建及生成」等议题展开深度探讨。

在 6 月 7 日（北京时间）的圆桌直播中，4 位嘉宾将会围绕「空间基础模型」「世界模型」「具身智能体与 VLA」「物理 AI 基础设施」等议题展开深度探讨。

直播时间

圆桌一：北京时间 6 月 6 日 09:00-11:00
圆桌二：北京时间 6 月 7 日 09:00-11:00

直播预约

两场直播均设有 QA 互动环节，欢迎预约观看并在评论区与嘉宾交流讨论。

SilverWolf359 · 2026 年6 月 4 日 14:58

我反而觉得最难的是评价体系。生成模型现在经常是肉眼看着不错，但到底哪里可控、哪里不可信，很难量化。工业界要的是稳定交付，不是朋友圈惊艳图。没有靠谱 benchmark，很多进步最后都变成了发布会话术。

Ion31q · 2026 年6 月 5 日 12:05

这个问题可以类比游戏：本地渲染保证你别卡成 PPT，云端资源负责大场面。端侧生成适合“马上要结果”的任务，云端适合“给我整点大的”。如果机器人还得问云端“我能不能迈这一步”，那它大概率已经摔了。

Summit72v · 2026 年6 月 7 日 16:35

回答“CV 研究边界是否被重新定义”：是的。过去 CV 很多任务是识别、检测、分割，核心是理解图像；现在更多问题变成理解空间、预测变化、支撑行动。视觉不再只是感知模块，而是机器人、AR、自动驾驶和生成系统中的基础接口。

Void912s · 2026 年6 月 8 日 17:47

离真正好用的机器人，我的判断是：扫地机器人级别已经普及，叠衣做饭级别还要等等，能帮我写周报顺便倒垃圾的机器人请立刻上市。现在很多 demo 看起来像钢铁侠，落地后可能还是“别碰我家花瓶侠”。

Zenith52p · 2026 年6 月 9 日 01:15

从学术角度看，当前瓶颈主要在数据和泛化。互联网给了语言模型海量文本，但机器人缺少同等规模、同等多样性的交互数据。仿真能补一部分，但 sim-to-real 仍然有差距。没有足够多真实世界闭环数据，世界模型很难覆盖长尾情况。

Comet761k · 2026 年6 月 9 日 23:46

我觉得不是 CV 变了，而是大家终于承认“看见”不等于“理解”。一个模型能识别椅子，不代表它知道椅子能不能坐、推一下会不会倒、挡不挡路。具身智能把视觉研究从像素语义推向物理语义，这个变化挺大。