CVPR 2025 官方揭秘:三大热门研究方向及投稿趋势分析

CVPR 2025 揭晓三大热门方向:3D技术、图像/视频合成、多模态学习。投稿竞争激烈,接收率低。CVPR关注有价值的研究,不分机构大小。

原文标题:4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?

原文作者:机器之心

冷月清谈:

CVPR 2025 官方根据四万多名作者的投稿数据,总结出计算机视觉领域的三大热门方向:基于多视角与传感器的 3D 技术、图像与视频合成、多模态学习(视觉、语言和推理)。其中,多视角 3D 技术的兴起得益于 NeRF 和高斯泼溅等技术的推动,图像与视频合成则受益于商业聊天机器人的多模态发展趋势,而多模态学习则涵盖了视觉、语言和推理等多个领域。投稿数量持续增长,但接收率依然很低,竞争激烈。CVPR 大会致力于关注所有有价值的研究,不以机构大小论英雄,为领域发展提供平衡。

怜星夜思:

1、NeRF 和高斯泼溅这些技术让3D重建火了,但感觉对硬件要求很高啊,是不是只有大厂或者研究机构才玩得起?个人开发者或者小团队能怎么参与进去?
2、文章里说图像和视频合成是热门,AI生成图片、AI修复老照片现在挺火的,但感觉很多都同质化了,大家觉得这个领域还有哪些潜在的创新点可以挖掘?
3、多模态学习现在很火,但感觉很多研究都是把视觉、语言模型简单拼在一起,缺乏深层次的融合,未来多模态学习应该怎么发展才能更有突破?

原文内容

机器之心报道

机器之心编辑部

当今计算机视觉领域最热门的三个方向。


当今计算机视觉领域最热门的话题有哪些?


刚刚,CVPR 官方给出了最新统计,他们根据论文提交情况,总结出三大方向:


  • 基于多视角与传感器的 3D 技术;

  • 图像与视频合成;

  • 多模态学习,视觉、语言和推理。



这份统计是基于全球 4 万多名作者 13008 份投稿结果产生的。相比往年,今年的投稿数量增长了 13%,最终有 2878 篇论文被接收,整体接收率为 22.1%。


「我们已经处于这种指数级增长态势一段时间了,」CVPR 2025 联合主席 Phillip Isola 解释道。「AI 领域举足轻重,正是因为如此,学生们攻读相关学位的人数在增多。因此,这个研究群体正变得越来越庞大。」


但除了这一总体趋势之外,深入研究该顶会还会发现,社区关注的领域很局限。特定领域的进展已经让位于新的研究重点,吸引了更多关于新主题的论文。


具体来说,有三个领域正在成为 2025 年的热门方向:


多视角与传感器 3D 技术


多视角和传感器 3D 技术为 CVPR 带来了大量的投稿,其原因很简单:基于图像的研究已经从探索单幅图像或 2D 渲染发展到更复杂的 3D 评估领域。2020 年 NeRF 的推出,开辟了新的研究方向。


「自 2020 年 NeRF 论文首次发表以来,利用深度网络进行 3D 重建已成为趋势。如今高斯泼溅(Gaussian splatting)技术进一步推动了这一发展,」CVPR 2025 程序联合主席、美国俄勒冈州立大学副教授 Fuxin Li 分享道,「本质上,计算机视觉与图形学正在融合。神经渲染研究的兴起,显著推动了 3D 相关论文数量的增长。」


图像与视频合成


随着研究的不断发展,学界现在能够通过视频和图像形式更精确地呈现环境信息。对该领域的探索已成为 CVPR 2025 论文的焦点,图像和视频合成成为今年大会上最大的类别之一。


「今年商业聊天机器人的一大趋势是它们已经实现了多模态化;它们现在不仅能分析和生成文本,还能分析和生成图像,有时还能生成视频,」Isola 解释道。「即将出现的能力是生成完整的交互式世界。CVPR 上展示的图像、视频和世界合成方法正在为这类技术铺平道路。」


AI 生成的威尔史密斯吃意面


多模态学习,视觉、语言和推理


虽然在征文通知中,这两个主题被列为两个独立的研究主题,但合并起来,它们构成了提交论文数量最多的类别之一。这些领域的个人研究数量或许预示着今年会议值得关注的新趋势。


鉴于论文接受率徘徊在极低的 22%,因而每一篇入选 CVPR 的论文都堪称经典。尽管投稿内容反映了学界对特定领域的研究热情,但大会主席强调,CVPR 是该领域伟大的平衡杠杆,它关注值得认可的研究,而非那些声势最大的团队。


「CVPR 在扩大领域声音方面发挥着非常重要的作用,而不仅仅是来自大型机构的声音,」Fuxin Li 总结道。「在 CVPR,每篇论文都有同等的权利。如果是 poster,那就是 poster。如果是 oral,那就是 oral。你是谁并不重要。这一点对计算机视觉领域的生态系统至关重要。」


在 AI 领域飞速发展的今天, 研究热点瞬息万变。大家一股脑的押注最热门方向, 外加投稿数量逐年增多,只能说,想中一篇顶会真是太难了。


CVPR 2025 即将召开,值此盛会,机器之心将在北京举办一场 CVPR 2025 论文分享会,欢迎大家通过下图报名。


参考链接:https://cvpr.thecvf.com/Conferences/2025/News/Paper_Trends


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


个人感觉哈,其实参与的方式有很多。不一定非得直接搞 NeRF,可以用现成的 NeRF 数据集或者模型做一些下游任务,比如场景理解、目标检测等等。或者,可以开发一些 NeRF 相关的工具,比如数据处理、可视化工具啥的。 另外,我觉得还可以关注一些新的硬件平台,比如苹果的Metal,说不定在移动端也能做出一些有意思的东西。

我现在觉得哈,光是生成已经不够了。能不能让AI理解用户的意图,然后根据用户的反馈不断改进生成结果?就像一个设计师一样,和用户不断沟通,最终做出完美的作品。 还有,现在很多AI生成的视频都比较短,而且逻辑性不强。能不能让AI生成更长、更复杂的视频,甚至可以讲一个完整的故事?

我感觉现在多模态学习有点像在搭积木,各种模态的模型都是独立的,拼在一起就完事了。但真正的多模态应该是像大脑一样,各种感官信息是相互影响、相互促进的。 未来,我觉得可以尝试从神经科学中寻找灵感,比如研究大脑是如何整合视觉、听觉、语言等信息的。或者,可以开发一些新的模型结构,让不同的模态能够更好地交流和协作。

多模态学习要突破,个人觉得得跳出“拼凑”的思维。现在很多研究要么是简单concat特征,要么是cross-attention一把梭。感觉可以尝试: 1. 因果推理:挖掘不同模态之间的因果关系,比如图像中的物体导致了文本描述中的事件。 2. 知识图谱:引入外部知识,让模型更好地理解不同模态之间的语义关联。 3. 主动学习:让模型主动选择需要哪些模态的信息,而不是被动接受所有信息。 4. 生成式多模态:不仅仅是理解,还要能够生成不同模态的内容,比如根据文本生成图像。 总之,得让模型学会像人一样,灵活运用不同的感官信息。

这个问题问得好!NeRF和高斯泼溅确实对算力要求高,但并非完全无解。一方面,可以关注一些算力租赁平台,比如AutoDL,平时训练用学生机,关键时候租用高性能服务器。另一方面,可以尝试一些轻量化的NeRF变体或者针对移动端的优化算法。此外,数据也是关键,可以尝试使用合成数据或者众包数据来降低成本。说不定能开发出一些针对特定场景的有趣应用!

多模态融合确实是个挑战。现在很多方法都是特征层面的拼接,缺乏对不同模态之间关联性的建模。我认为可以从以下几个方面入手:一是引入更强的先验知识,比如物理规律、常识知识等;二是设计更有效的融合机制,比如注意力机制、图神经网络等;三是构建更具挑战性的多模态数据集,用于训练更强大的模型。关键是要让模型真正理解不同模态之间的内在联系,而不是简单地把它们堆砌在一起。

从学术角度讲,NeRF和高斯溅射虽然效果拔群,但其计算复杂度与渲染成本确实是制约其广泛应用的重要因素。个人开发者或小型团队可以关注以下几个方向:一是模型压缩与加速,例如知识蒸馏、模型剪枝等;二是针对特定应用场景的定制化NeRF,例如针对室内场景、人脸重建等,降低模型复杂度;三是探索新的渲染方法,例如基于体素或点云的快速渲染方法。 此外,利用开源框架和预训练模型也能有效降低开发门槛。

同质化是肯定的,现在GAN、Diffusion Model满天飞。但我觉得几个方向有潜力:一是可控性更强的生成,比如精确控制光照、材质、表情等;二是与物理世界的结合,比如生成可以用于机器人训练的真实感数据;三是面向特定行业的应用,比如服装设计、游戏场景生成等。另外,如何评价生成内容的质量,也是一个值得研究的问题。

图像和视频合成的创新点,我觉着可以从以下几个维度思考: 1. 真实感提升:如何让AI生成的图像和视频更逼真,难以辨认? 可以研究更先进的纹理合成、光照模拟、运动建模技术。 2. 个性化定制:如何根据用户需求,生成独一无二的内容? 可以结合用户画像、风格偏好等信息,实现更精细的控制。 3. 交互性增强:如何让用户参与到生成过程中? 比如,用户可以通过草图、文字描述等方式,引导AI生成符合自己想法的内容。 4. 安全性保障:如何防止AI被用于生成虚假信息、恶意内容? 需要加强对生成模型的监管和内容审核。