清华IJCAI2025教程:多模态生成式AI如何应对动态开放环境挑战与前沿技术。
原文标题:【IJCAI2025教程】动态开放环境下的多模态生成式人工智能
原文作者:数据派THU
冷月清谈:
文章指出,在不断变化的数据分布、新兴概念涌现以及日益复杂的应用场景下,动态开放环境给多模态生成模型带来了巨大挑战。为了应对这些难题,教程提出了两大解决方案和未来发展方向:其一,是发展能够实现泛化的后训练技术,旨在帮助多模态生成模型快速适应新概念;其二,是构建统一的多模态生成与理解框架,以期能有效支撑和处理更为复杂的跨模态任务。
教程大纲涵盖了从生成式模型基础介绍到MLLM、扩散模型、新概念泛化后训练、统一理解生成模型以及未来发展方向等多个部分,内容系统且深入。本教程旨在为对生成式AI、多模态、MLLM和扩散模型感兴趣的研究人员提供前沿知识和宝贵洞察,帮助他们了解该领域的最新动态和未来趋势。
怜星夜思:
2、文章里提到要搞“统一的多模态理解生成框架”,这是不是意味着以后我们只需要一个模型就能搞定所有AI任务了?跟现在各种AI模型“各司其职”比起来,哪种方式更厉害,或者说优缺点在哪?
3、动态开放环境下的多模态生成式AI听起来很牛,但它会不会带来一些意想不到的社会问题啊?比如内容真实性、信息茧房、或者我们普通人怎么去分辨AI生成的内容?
原文内容
来源:专知本文约1000字,建议阅读5分钟来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程,值得关注!
2025年的IJCAI(International Joint Conference on Artificial Intelligence) 于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。
来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程,值得关注!
https://mn.cs.tsinghua.edu.cn/ijcai25-aigc/
概述
本教程旨在传播和推广多模态生成式人工智能的最新研究进展,重点聚焦于两大类主流技术:用于理解的多模态大语言模型(Multimodal Large Language Models)以及用于视觉生成的扩散模型(Diffusion Models)。本教程系统性地讨论多模态大语言模型与多模态扩散模型,涵盖其概率建模方法、模型架构以及多模态交互机制等内容。
在动态与开放的环境中,不断变化的数据分布、新兴概念的出现以及日益复杂的应用场景,为多模态生成模型带来了巨大挑战。本教程将从两个方面探讨应对这些挑战的解决方案及未来方向:其一是能够实现泛化的后训练技术,以帮助多模态生成模型适应新概念;其二是发展统一的多模态生成与理解框架,以支持复杂的多模态任务。
教程大纲
本教程的时长为1.5小时。
第一部分:生成式模型介绍(5分钟)
前置知识:大语言模型、多模态生成式人工智能
-
大模型新范式
-
多模态生成式人工智能的应用领域
-
多模态生成式人工智能的两类模型:多模态大语言模型与扩散模型
第二部分:多模态大语言模型(10分钟)
多模态大型语言模型 (MLLM) 近年来已成为多模态理解领域的主流。本节对多模态大型语言模型进行回顾和总结。
-
自回归建模
-
视觉语言预训练
-
视觉分词器
第三部分:扩散模型(10分钟)
扩散模型(Diffusion Model)已成为视觉生成领域的主流模型。本节对扩散模型进行回顾和总结。
-
去噪扩散概率模型
-
潜空间扩散模型
-
流匹配
-
文生图、文生视频等应用
第四部分:新概念泛化的后训练(35分钟)
介绍动态开放环境的主要挑战,并提出应对这一挑战的方式之一:新概念泛化的后训练技术。
-
空间解耦后训练
-
时空解耦后训练
第五部分:统一理解生成模型(15分钟)
本节主要关注统一的多模态理解和生成模型。
-
概率建模过程
-
模型架构
第六部分:未来方向(10分钟)
-
具有物理规律的生成式人工智能
-
理解生成一体化基准测试
-
多模态图生成人工智能
-
具身生成人工智能
第七部分:开放讨论(5分钟)
目标受众
本教程的目标受众是人工智能领域的研究群体,尤其是对生成式人工智能、多模态、多模态大语言模型以及扩散模型感兴趣的研究人员。
教程目标:本教程聚焦于多模态生成式人工智能的最新进展,以及当前的热点方向——统一的多模态生成与理解框架。听众将能够了解多模态生成式人工智能的概率建模方法、模型架构,以及一些前沿应用。




