谷歌Veo 3发布引爆AI视频「有声时代」,CVPR 2025论文分享会聚焦多模态与视频生成

谷歌Veo 3发布,AI视频进入有声时代。机器之心将于6月8日举办CVPR 2025论文分享会,聚焦多模态与视频生成等前沿方向。

原文标题:全日程公布|谷歌Veo 3惊艳发布后,这场CVPR分享会值得每个AI人「听个声」

原文作者:机器之心

冷月清谈:

谷歌Veo 3的发布标志着AI视频进入有声时代,其音画同步功能备受瞩目。为帮助从业者了解AI社区的最新创新成果和发展趋势,机器之心将于6月8日在北京举办CVPR 2025论文分享会,邀请顶级专家和论文作者围绕多模态、视频生成等热门主题进行交流。本次分享会内容丰富,包括Keynote、论文分享、圆桌对话、Poster交流及企业展位交流等环节。Keynote嘉宾包括中科院计算所研究员高林和北航人工智能学院副教授黄雷,他们将分别分享在可视媒体合成与编辑以及多模态大模型统一之路上的研究成果。此外,分享会还将通过机器之心视频号以及黄大年茶思屋科技网站进行直播。

怜星夜思:

1、Veo 3的音画同步被认为是AI视频领域的重要突破,那么除了娱乐应用,你认为这种技术在哪些行业或领域具有更大的应用潜力?例如教育、医疗、工业等。
2、CVPR每年都吸引大量研究机构和高校参与,接收率也很低,竞争非常激烈。在你看来,除了技术创新,一篇论文要脱颖而出还需要具备哪些要素?
3、本次CVPR分享会设置了Keynote、论文分享、圆桌对话等环节,你最期待哪个环节?为什么?你希望在这些环节中听到哪些内容?

原文内容


前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入到了真正的「有声时代」。



从中可以发现,虽然当前 AI 社区已有的大模型已经足够惊艳,但得益于架构的创新、算力集群的投入,仍然会「卷」出一些新东西来。比如视频生成领域,从最初的无声进化到如今的有声,提升明显;再比如多模态领域,逐渐朝着理解与生成大一统的方向演进。


因此,为让从业者全面了解 AI 社区涌现的最新创新成果和发展趋势,机器之心计划 6 月 8 日在北京举办「CVPR 2025 论文分享会」,围绕着多模态、视频生成等热门主题邀请顶级专家、论文作者与现场参会观众共同交流。


作为计算机视觉领域中最重要的国际会议之一,CVPR 具有极高的含金量,每年都会吸引大量研究机构和高校参会。今年,CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。


作为一场为国内 AI 人才打造的盛会,本次论文分享会设置了 Keynote、论文分享、圆桌对话、Poster 交流及企业展位交流等丰富环节。今天,论文分享会的全日程、Keynote 分享嘉宾及演讲主题正式公布,感兴趣的读者可以继续扫描文中二维码报名




Keynote 嘉宾及演讲主题


【上午 Keynote】高林  基于混合表达与生成模型的可视媒体合成与编辑方法



分享人介绍:高林,中国科学院计算技术研究所研究员、中国科学院大学岗位教授。研究方向为计算机图形学、三维计算机视觉。在 SIGGRAPH、TPAMI、TVCG 等期刊会议发表论文 100 余篇。现任或者曾任亚洲图形学学会秘书长,作为项目负责人承担国家重点研发计划、基金委优青等项目,曾获得亚洲图形学会青年学者奖等奖励。


分享摘要:在本次报告中,我们将分析最近几何表征发展的特点,分析内在的规律,介绍几何表征的挑战和相关应用。介绍高斯泼溅的最新进展,包括如何对高斯泼溅进行大尺度变形、解耦和重光照,以及如何对基于高斯泼溅表征的数字人进行实时重光照。 同时,生成模型不仅在影响三维重建的方法,还给渲染带来了新的求解思路。其中,视频生成模型给生成式渲染带来了全新的思路。我们将介绍基于生成模型的视频编辑与合成方法,将介绍基于线稿交互的视频编辑方法,和基于点云几何先验的大视角视频编辑与合成方法。


【下午 Keynote】黄雷  从表征和学习视角议多模态大模型的统一之路



分享人介绍:黄雷,北京航空航天大学人工智能学院副教授。本科和博士均毕业于北京航空航天大学,曾在美国密歇根大学访学和阿联酋 IIAI 工作。研究主要集中在深度神经网络架构、训练技术及理论分析,出版首部关于 DNNs 中 Normalization 技术的英文专著,主导训练发布 TinyLLaVA 系列模型及 TinyLLaVA Factory 开源项目,曾以一作兼通讯作者身份获 CVPR 2020 最佳论文提名奖。


分享摘要:大语言模型以离散化词汇表示和上下文建模学习统一了各类自然语言理解和生成任务。过去几年,这类统一建模思想也蔓延至视觉、语音以及其它非结构化类数据,促进了「统一」的多模态大模型发展。本报告首先从表征和学习视角,以抽象的形式探讨了条件概率模型在建模任意问题的可行性,然后以统一建模为指导思想,概述了近年来语言和多模态建模的主要发展路线,最后介绍了报告人课题组在针对该议题研究中一些基础问题的研究进展和相关展望。


Poster


在本次论文分享会中,将会有一批论文作者进行论文分享与 Poster 展示,感兴趣的读者可以通过下图了解具体信息:



此次论文分享会也将在机器之心视频号以及黄大年茶思屋科技网站两个平台进行直播,欢迎大家关注、预约。



合作伙伴介绍


黄大年茶思屋科技网站


黄大年茶思屋科技网站是致力于推动科学与技术交流的开放平台。我们汇聚全球科学家、研究人员和技术专家,共同探讨最前沿的学术话题,分享最新的科研成果,激发创新思维的火花。在这里,您可以看到学术热点、精选论文、学术峰会、技术难题、专利、开源和科技赛事等内容。茶思屋科技网站,汇聚全球科研智慧,推动科技创新,让科技百花园更加繁荣。


网址:https://www.chaspark.com


腾讯青云计划


腾讯青云计划聚焦 AI 大模型等十大技术领域,面向全球招募顶尖实习生和毕业生,提供上不封顶的职级薪酬、全面定制化的培养方案,并开放核心业务工作机会、解锁前瞻性技术课题培养中国未来的科技人才。


今年腾讯将继续深度参与多场全球顶级学术会议,并组织群星未来之夜系列活动。关注「腾讯招聘」公众号了解相关报名信息。


加入青云计划,不负少年意气!


青云官网:https://join.qq.com/qingyun.html


京东 TGT 计划


TGT (Tech Genius Team)是由京东发起的「顶尖青年技术天才计划」,面向全球高校本硕博在校生、应届生及毕业两年内的技术人才开放招募。


TGT 计划聚焦技术突破和有社会价值的前沿课题,依托京东在零售、物流、科技、健康、工业、产发等领域丰富的产业布局,研究涵盖包括多模态大模型与应用、机器学习、搜索推荐广告、空间与具身智能、高性能与云计算、大数据、AI Infra、安全等方向。


除了不设上限的薪资以外,京东还将提供完备的福利体系、充足的算力资源保障、「技术导师 + 业务导师 + 成长导师」三导师的培养机制,保障 TGT 能够心无旁骛投身技术突破并迅速成长为领军人物。


TGT 网址:https://campus.jd.com/home#/talentProject?tabKey=3


联系我们


机器之心联合多个合作伙伴,成功举办云帆・ICLR 2025 AI Talent Meetup、CVPR 2024 论文分享会、NeurIPS 2024 论文分享会、ACL 2024 AI Talent 晚宴等多场活动,助力合作伙伴吸纳人才,提升品牌影响力。


如您 / 您所在的企业对参与「」感兴趣,欢迎参与合作及共建,具体合作方式欢迎联系:



个人认为,除了硬实力,包装也很重要!

* 一个吸引眼球的标题: 让人一眼就想点进去看看。
* 一张清晰明了的图: 把你的核心思想用一张图表达出来,节省评审人的时间。
* 一份漂亮的排版: 给人专业、认真的感觉。

除了扎实的技术创新,我觉得一篇优秀的CVPR论文还需要:

1. 清晰的表达: 确保论文逻辑清晰,语言简洁明了,让读者能够轻松理解你的研究思路和方法。
2. 充分的实验验证: 不仅仅展示最好的结果,还要全面评估不同方法和参数的影响,给出充分的实验数据支持你的结论。
3. 深刻的洞见: 不仅仅是解决问题,还要对领域的发展方向和潜在挑战提出深刻的洞见,引发读者的思考。
4. 故事性: 研究背景、痛点、解决方案、实验、结论,好的论文像一个引人入胜的故事,能让评审人眼前一亮。

我最期待圆桌对话环节!Keynote和论文分享更多是单向输出,而圆桌对话可以听到不同专家观点的碰撞,更容易擦出火花。我希望听到专家们对未来AI发展趋势的预测,以及对当前研究热点的冷静分析。最好能有一些“行业内幕”或者“吐槽大会”,让我们这些初学者也能更真实地了解这个领域的现状。

Veo 3的音画同步确实厉害!我觉得这技术在教育领域潜力巨大。比如,可以生成带有手语的教学视频,帮助听障学生更好地学习。或者在历史教学中,让历史人物“开口说话”,增强学生的沉浸感和理解。在医疗领域,可以用于手术过程的记录和分析,结合声音能够更准确地还原手术场景,方便医生复盘和学习。工业场景的话,可以用来制作设备维护的指导视频,音画同步能更直观地展示操作步骤和关键点。

楼上说的没错,有时候感觉CVPR就像选美,既要看实力,也要看颜值!如果能再蹭上个热点,比如最近火的多模态大模型,那就更容易引起关注了。当然,最根本的还是要把研究做好,不然再花哨的包装也只是空中楼阁。

从更严肃的角度考虑,Veo 3的音画同步在以下几个领域有潜力:

1. 远程医疗和诊断: 生成带有同步语音指导的超声或内窥镜检查视频,方便专家远程诊断和指导。
2. 法律和取证: 提供更可靠的视频证据,音画同步降低了篡改的可能性,增强了证据的可信度。
3. 无障碍交流: 为听力障碍者提供更自然的交流方式,例如实时生成带有声音提示的手语翻译视频。
4. **科研领域:**科研数据可视化,例如生物实验过程、物理现象的模拟,加入声音能更全面的反应实验数据。

冲着黄雷老师的Keynote去的!他主导的TinyLLaVA系列模型和TinyLLaVA Factory开源项目我一直很关注。希望能听到他对多模态大模型统一之路的更深入解读,特别是关于如何解决资源受限情况下的模型训练和部署问题。如果能有机会和他交流一下,那就更完美了!

作为一个社恐,我还是更期待Poster交流环节。可以自己选择感兴趣的poster,和作者更深入地交流,不用担心在大会上突然被cue到回答问题。而且poster通常会更直观地展示研究内容,更容易理解。希望这次能遇到一些志同道合的小伙伴,一起学习,共同进步!

其实我觉得吧,这种技术最直接的应用就是让鬼畜视频的制作更上一层楼!想想以后各种魔性的音画同步鬼畜,简直不能更期待!当然,正经点说,除了楼上几位说的行业,我觉得VR/AR游戏和沉浸式体验也能用得上,毕竟视觉和听觉的同步能极大地增强体验感。