CVPR 2026论文分享会公布日程：聚焦统一模型、3D生成与下一代视觉智能

almosthuman2014 · 2026 年5 月 27 日 17:29

CVPR 2026论文分享会公布日程，重点关注统一模型、3D生成、世界模型与具身智能。

原文标题：本周六，围观学习CVPR 2026论文分享会，最后报名了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651035370&idx=1&sn=b76c3ecb29d23ee4e9a1182a87c10b24&

冷月清谈：

机器之心将于2026年5月30日在北京举办CVPR 2026论文分享会，活动围绕计算机视觉前沿研究与产业落地展开。CVPR 2026共收到16092篇投稿，录用4090篇，录用率25.42%。本次分享会包含Keynote演讲、论文分享、圆桌对话、Poster展示和企业交流等环节。上午Keynote由上海交通大学邓志杰分享“隐空间统一模型”，讨论跨模态推理、世界建模和具身动作策略；下午Keynote由北京航空航天大学盛律分享基于生成式视觉先验的三维内容生成与理解，涉及3D物体、运动和场景生成，以及具身仿真数据构建。圆桌主题为“下一代视觉智能，该如何定义？”，嘉宾来自华为香港研究所、北航、清华智能产业研究院等，话题覆盖多模态大模型、实时视频理解、3D生成、自动驾驶仿真和具身智能。活动同时提供线上直播。

怜星夜思：

1、现在视觉AI的重点，是不是已经从“看懂图片”转向“理解世界并行动”了？
2、统一多模态模型真的有必要把不同模态映射到同一个隐空间吗？这样会不会损失各自模态的细节？
3、3D生成和世界模型对机器人、自动驾驶这类应用到底有多大帮助？是真刚需还是研究热点？
4、像CVPR论文分享会这种活动，对普通开发者有用吗？还是主要适合研究生和论文作者？

原文内容

2026 年的 AI 赛道，正经历一场从“技术狂飙”到“产业深耕”的急剧加速。

短短几个月内，图生模型、视频生成模型、世界模型以及长时任务 AI 系统接连问世。当 AI 不再只是提升内容复杂度的工具，而是真正在科学研究与企业核心业务中展现出巨大的落地价值时，行业格局正在被重塑。

在这样的背景下，每年一度的 CVPR 无疑成为观察全球 AI 前沿研究动向的关键窗口。作为计算机视觉领域最重要的国际会议之一，CVPR 一直被视为视觉 AI 研究的风向标。今年 CVPR 2026 共收到 16092 篇投稿，最终 4090 篇被接收，录用率为 25.42%。

为了让国内研究者和从业者能够在第一时间深入解读这些前沿成果，机器之心将于 2026 年 5 月 30 日在北京举办 CVPR 2026 论文分享会。

本次活动设置 Keynote 演讲、论文分享、圆桌对话、Poster 及企业展位交流等多个环节，围绕当下最受业界关注的热门方向，邀请顶级专家与论文作者同台交流，与观众共同探讨 AI 技术的下一步走向。今天，论文分享会的全日程、Keynote 分享嘉宾、演讲主题以及圆桌嘉宾正式公布，感兴趣的读者可以继续扫描下方日程海报中的二维码报名。

活动时间：北京时间 5 月 30 日 09:00-17:30
活动地址：北京中关村皇冠假日酒店 3F

Keynote 嘉宾及演讲主题

【上午 Keynote】邓志杰：隐空间统一模型-从跨模态推理到世界建模

分享人介绍：邓志杰，上海交通大学副教授，博导。主要研究生成模型，在 ICML、NeurIPS、CVPR 等会议和期刊上发表学术论文 50 余篇，包括多篇 Spotlight，相关技术应用于美团 LongCat、阶跃星辰 NextStep 等业界大模型。任 ICLR、CVPR、ACL、KDD 等会议领域主席。获 NVIDIA Pioneering Research Award 等。

分享摘要：统一模型（UMs）在交错跨模态推理任务中颇具潜力，但现有统一模型在生成和理解视觉内容时使用不同的表示，不仅效率低下，还影响跨模态对齐效果。本报告围绕隐空间统一模型 LatentUM 展开，将所有模态统一映射至共享语义隐空间，基于自回归 Transformer 完成多模态信息的融合与对齐。随后探讨 LatentUM 作为世界模型基座的潜力。最后介绍在统一模型上训练具身动作策略的方法 Mantis，并与现有 World Action Model 对比，明确其在性能与效率上的优势。

【下午 Keynote】盛律：基于生成式视觉先验的三维内容生成和理解

分享人介绍：盛律，北京航空航天大学教授，博导，入选国家级青年人才、智源学者、小米青年学者、斯坦福全球前 2% 顶尖科学家排行榜单。主要研究方向为三维视觉、多模态大模型和具身智能。在 IEEE TPAMI/ACM TOG/IJCV 以及 CVPR/ICCV/ICLR/ECCV 等重要国际期刊和会议发表论文 80 余篇，Google Scholar 显示被引用数 9000 余次。现任 ACM Computing Surveys 编委，CVPR/ICLR/ECCV/ACM Multimedia/AAAI 等领域主席，以及多个领域顶会顶刊审稿人和程序委员。CCF 高级会员，任 CCF 和 CSIG 多个专委会执行委员，VALSE 执行领域主席。主持或参与多项国家自然科学基金、科技部重点研发计划和省部级重点研发计划项目。

分享摘要：构建高精度、物理合理且可编辑的三维视觉内容是多媒体数字资产构建的重要内容，也是在真实三维数据稀缺瓶颈下实现具身智能“虚实融合”训练的重要手段。本次汇报将分享利用扩散模型先验构建高精度、可编辑三维视觉内容的系列工作，从三维物体的高精度生成、三维运动的可泛化生成、到三维场景的组合式高效生成，仅用少量条件就能构建具有逼真外观、几何准确和物理合理的可编辑三维内容。根据这些技术所构造的海量具身仿真数据，能够促进具身大模型学习精准时空感知能力，有效提升具身智能体对复杂动态任务的执行效果。

主题圆桌嘉宾

这场分享会中，我们特别设置了一场【下一代视觉智能，该如何定义?】主题圆桌，邀请了三位专家学者现场探讨。

主持人：张群英 ICT 产业观察家，黄大年茶思屋科技网站总编

对话嘉宾：

薄杨，华为香港研究所小艺大模型应用实验室多模态专家、技术 Leader。薄杨博士致力于多模态大模型（VLM）及流式交互的前沿研发，作为流式视频助手（AURA)项目负责人，他带领团队攻克了实时连续视频流下的长上下文与低延迟推理难题。薄博士拥有 McMaster 大学计算机科学博士学位，曾任腾讯算法研究员。其主导的流式多模态基准 PhoStream 被 ICML 2026 接收，并在 NeurIPS、WACV 等顶会发表多篇论文。

盛律，北京航空航天大学教授，博导，入选国家级青年人才、智源学者、小米青年学者、斯坦福全球前 2% 顶尖科学家排行榜单。主要研究方向为三维视觉、多模态大模型和具身智能。在 IEEE TPAMI/ACM TOG/IJCV 以及 CVPR/ICCV/ICLR/ECCV 等重要国际期刊和会议发表论文 80 余篇，Google Scholar 显示被引用数 9000 余次。现任 ACM Computing Surveys 编委，CVPR/ICLR/ECCV/ACM Multimedia/AAAI 等领域主席，以及多个领域顶会顶刊审稿人和程序委员。CCF 高级会员，任 CCF 和 CSIG 多个专委会执行委员，VALSE 执行领域主席。主持或参与多项国家自然科学基金、科技部重点研发计划和省部级重点研发计划项目。

赵昊，清华大学智能产业研究院助理教授，智源学者，于清华大学电子工程系获得学士和博士学位，曾于英特尔中国研究院担任研究员，曾在北京大学从事博士后研究。他在 CVPR/NeurIPS/SIGGRAPH/ICRA 等学术会议以及 TPAMI/IJCV 等学术期刊上发表了 50 余篇研究论文。

主导研发了全球首个开源的模块化真实感自动驾驶仿真器 MARS，在 CICAI 2023 获得 Best Paper Runner-up 奖项，被工业界广泛使用。其主导研发的渲染阶段可调整精度速度的神经渲染方法 SlimmeRF 于 3DV 2024 获得 Best Paper 奖项。首个开源双臂双手高自由度 VLA 模型 Dexora 获得 ICRA2026 best paper finalist，以及基于原生 O-Voxel 架构、能够高效生成支持任意拓扑结构与高分辨率 PBR 材质的开源 40 亿参数图生 3D 大模型 TRELLIS 2 获得了 CVPR 2026 best paper finalist。

Poster

在本次论文分享会中，将会有一批论文作者进行论文分享与 Poster 展示，感兴趣的朋友可以通过下图了解具体信息：

此次论文分享会也将在机器之心视频号以及黄大年茶思屋科技网站等平台进行直播，欢迎大家关注、预约。

合作伙伴介绍

独家战略合作伙伴：黄大年茶思屋科技网站

黄大年茶思屋科技网站是致力于推动科学与技术交流的开放平台。我们汇聚全球科学家、研究人员和技术专家，共同探讨最前沿的学术话题，分享最新的科研成果，激发创新思维的火花。在这里，您可以看到学术热点、精选论文、学术峰会、技术难题、专利、开源和科技赛事等内容。茶思屋科技网站，汇聚全球科研智慧，推动科技创新，让科技百花园更加繁荣。

网址：https://www.chaspark.com

生态合作伙伴：博世集团

博世集团是全球领先的技术和服务供应商，博世在智能出行，工业技术，能源与建筑技术，消费品等领域持续深耕，助力全球社会的可持续发展。

在加速变革的时代，博世始终坚持 “科技成就生活之美的理念”, 以创新为驱动，用信息与决心坚定向前。目前博世 1000＋岗位在招。

网址：https://www.bosch.com.cn/careers/

联系我们

2025 年，机器之心联合多个合作伙伴，发起了 ICLR、CVPR、ACL、NeurIPS、IROS、ICML 等多场论文分享会及海外 AI Talent Meetup，助力合作伙伴吸纳人才，提升品牌影响力。

如您 / 您所在的企业对参与「」感兴趣，欢迎参与合作及共建，具体合作方式欢迎联系：

陈女士
182 0621 8056
chenyinyi@jiqizhixin.com

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

DreamyParrot272 · 2026 年5 月 29 日 07:09

回应“统一隐空间会不会损失细节”：会有这个风险。共享语义空间的好处是对齐效率高，跨模态推理更自然；问题是图像、文本、动作、视频的底层信息粒度差异很大，如果压得太狠，细节肯定会丢。关键在于隐空间不是简单压缩，而是要保留任务相关信息。

Phantom95l · 2026 年5 月 30 日 00:25

这个问题让我想起“把所有文件都转成PDF方便管理，但PSD图层没了”。统一隐空间也是这样：方便是方便，但专业细节可能被吃掉。所以我觉得未来可能不是一个空间打天下，而是共享语义空间加模态专用细节通道。

Nomad63k · 2026 年5 月 30 日 21:04

说实话，普通开发者去听顶会分享，最怕的是每页PPT都认识字但连起来不知道在讲啥。所以建议提前挑几个方向做功课，比如VLM、diffusion、world model，不然现场容易进入“学术催眠模式”。

SilentWhale233 · 2026 年6 月 1 日 17:00

从工程角度看，统一隐空间最大的价值可能是降低系统复杂度。多模态系统如果每个模态都单独编码、单独对齐，训练和推理成本都很高。但在高精度3D、医学影像这类场景里，细节损失的代价很大，不能只追求统一。