清华大学IJCAI 2025教程：多模态生成式AI在动态开放环境下的挑战与进展

DatapiTHU · 2025 年9 月 3 日 16:50

清华IJCAI2025教程：多模态生成式AI如何应对动态开放环境挑战与前沿技术。

原文标题：【IJCAI2025教程】动态开放环境下的多模态生成式人工智能

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247659353&idx=3&sn=fc772c673fd4daec107e8d9244bbfd67&

冷月清谈：

这份来自清华大学研究人员的IJCAI 2025教程，致力于分享多模态生成式人工智能的最新进展。教程核心聚焦于两大类主流技术：用于理解的多模态大语言模型（MLLM）和用于视觉生成的扩散模型（Diffusion Models）。它系统地探讨了这些模型的概率建模方法、架构设计以及复杂的多模态交互机制。

文章指出，在不断变化的数据分布、新兴概念涌现以及日益复杂的应用场景下，动态开放环境给多模态生成模型带来了巨大挑战。为了应对这些难题，教程提出了两大解决方案和未来发展方向：其一，是发展能够实现泛化的后训练技术，旨在帮助多模态生成模型快速适应新概念；其二，是构建统一的多模态生成与理解框架，以期能有效支撑和处理更为复杂的跨模态任务。

教程大纲涵盖了从生成式模型基础介绍到MLLM、扩散模型、新概念泛化后训练、统一理解生成模型以及未来发展方向等多个部分，内容系统且深入。本教程旨在为对生成式AI、多模态、MLLM和扩散模型感兴趣的研究人员提供前沿知识和宝贵洞察，帮助他们了解该领域的最新动态和未来趋势。

怜星夜思：

1、像GPT-4这种大模型，它怎么“学习”我们生活中每天都在涌现的新词、新概念和新知识啊？是不是光靠训练数据就够了，还是有啥别的“魔法”？
2、文章里提到要搞“统一的多模态理解生成框架”，这是不是意味着以后我们只需要一个模型就能搞定所有AI任务了？跟现在各种AI模型“各司其职”比起来，哪种方式更厉害，或者说优缺点在哪？
3、动态开放环境下的多模态生成式AI听起来很牛，但它会不会带来一些意想不到的社会问题啊？比如内容真实性、信息茧房、或者我们普通人怎么去分辨AI生成的内容？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程，值得关注！

2025年的IJCAI（International Joint Conference on Artificial Intelligence）于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议，是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿，录用1042篇，录用率19.3%。

来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程，值得关注！

https://mn.cs.tsinghua.edu.cn/ijcai25-aigc/

概述

本教程旨在传播和推广多模态生成式人工智能的最新研究进展，重点聚焦于两大类主流技术：用于理解的多模态大语言模型（Multimodal Large Language Models）以及用于视觉生成的扩散模型（Diffusion Models）。本教程系统性地讨论多模态大语言模型与多模态扩散模型，涵盖其概率建模方法、模型架构以及多模态交互机制等内容。

在动态与开放的环境中，不断变化的数据分布、新兴概念的出现以及日益复杂的应用场景，为多模态生成模型带来了巨大挑战。本教程将从两个方面探讨应对这些挑战的解决方案及未来方向：其一是能够实现泛化的后训练技术，以帮助多模态生成模型适应新概念；其二是发展统一的多模态生成与理解框架，以支持复杂的多模态任务。

教程大纲

本教程的时长为1.5小时。

第一部分：生成式模型介绍（5分钟）

前置知识：大语言模型、多模态生成式人工智能

大模型新范式
多模态生成式人工智能的应用领域
多模态生成式人工智能的两类模型：多模态大语言模型与扩散模型

第二部分：多模态大语言模型（10分钟）

多模态大型语言模型 (MLLM) 近年来已成为多模态理解领域的主流。本节对多模态大型语言模型进行回顾和总结。

自回归建模
视觉语言预训练
视觉分词器

第三部分：扩散模型（10分钟）

扩散模型（Diffusion Model）已成为视觉生成领域的主流模型。本节对扩散模型进行回顾和总结。

去噪扩散概率模型
潜空间扩散模型
流匹配
文生图、文生视频等应用

第四部分：新概念泛化的后训练（35分钟）

介绍动态开放环境的主要挑战，并提出应对这一挑战的方式之一：新概念泛化的后训练技术。

空间解耦后训练
时空解耦后训练

第五部分：统一理解生成模型（15分钟）

本节主要关注统一的多模态理解和生成模型。

概率建模过程
模型架构

第六部分：未来方向（10分钟）

具有物理规律的生成式人工智能
理解生成一体化基准测试
多模态图生成人工智能
具身生成人工智能

第七部分：开放讨论（5分钟）

目标受众

本教程的目标受众是人工智能领域的研究群体，尤其是对生成式人工智能、多模态、多模态大语言模型以及扩散模型感兴趣的研究人员。

教程目标：本教程聚焦于多模态生成式人工智能的最新进展，以及当前的热点方向——统一的多模态生成与理解框架。听众将能够了解多模态生成式人工智能的概率建模方法、模型架构，以及一些前沿应用。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Comet761k · 2025 年9 月 5 日 17:23

要说“学习”新概念，我觉得目前的大模型还远没达到人类那种主动、高效、无监督的学习能力。它们更多的是“整合”和“推断”。比如说“文心一言”，ChatGPT这些，它虽然能回答最新发布的新功能，但它其实并没有真正的“思考”或“理解”你的新词，它只是通过庞大的语料库和神经网络的连接，找到最接近、最合理的输出。对于真正意义上的“新”，如果没有大量相关数据或人工干预，它其实是盲区。所以，要适应动态开放环境，实时更新知识、提升泛化能力，仍然是LMM领域的核心挑战。

Blaze03m · 2025 年9 月 5 日 20:50

哈哈，我觉得大模型有点像我们以前读书时候的“死记硬背”，它记住了海量的知识。新概念嘛，它也不是直接“学会”了，而是通过它学过的那些无数个例子，比如看到一个新词出现在很多和“虚拟现实”相关的句子里，它就能大概猜到这词是干啥的。如果实在没见过，或者跟它学过的知识没啥联系，那它也懵圈。感觉就像我们去图书馆查资料，查不到最新出版的书，但能根据旧书推断点啥。有时还得靠“老师”给它补课（微调新的数据）才行。

Zen15e · 2025 年9 月 8 日 12:44

“统一的多模态理解生成框架”确实是未来AI发展的重要方向之一，它追求的是通过一个模型或一套紧密协作的模型来处理文本、图像、音频等多种模态的数据，并能同时进行理解和生成任务。优点在于：首先是效率，减少了模型间切换的成本；其次是增强了模态间的协同能力，能处理更复杂的跨模态任务（比如根据视频生成详细解说并从中提取关键画面）。然而，挑战也显而易见：模型复杂度会大大增加，训练所需的计算资源和数据量更为庞大；同时，在大一统模型中，如何确保所有子任务都能达到最佳性能，如何避免“样样通样样松”的问题，也是需要深入研究的。目前看来，特定领域的高性能任务可能仍需要专业模型来补充。

Zenith52p · 2025 年9 月 8 日 13:28

你提的这些问题真是说到点子上了，这也是我最担心的。动态开放环境意味着AI产出的内容会更快、更广泛地传播，而且实时性更强。这无疑会加剧内容真实性的挑战，比如“深度伪造”（deepfake）的应用会更难被识别，公众在辨别真伪信息时将面临巨大压力，可能导致信任危机。此外，AI生成的内容如果过度个性化，确实可能进一步强化“信息茧房”效应，我们看到的都是AI觉得我们想看的东西，视野反而可能变得狭窄。如何建立有效的AI内容识别标准、推行AI生成内容的强制性标记，以及提升公众的批判性思维能力，都是刻不容缓的社会课题。

Phantom20m · 2025 年9 月 9 日 00:24

一个模型搞定所有AI任务？听起来很诱人，但我觉得短期内不太现实。就像我们人类一样，虽然都有大脑，但有的人擅长理工，有的人擅长文科。统一框架的优点在于它能更好地理解不同模态之间的关联，比如生成一张图的同时，理解图里内容的深层含义。但缺点是它可能会牺牲在某些特定任务上的精度和效率。比如专门做图像识别的模型，可能在识别率上就是比大一统模型强。所以，未来的趋势可能更像是“大一统核心+精细化插件”的模式，核心框架负责通用能力，特定领域再用专业模型进行优化。

Mystic98x · 2025 年9 月 9 日 06:27

哇塞，如果真能实现统一的多模态理解生成框架，那简直是AI界的“瑞士军刀”啊！想想看，以后就不用担心这个模型只能画画，那个模型只能写文章了。我们输入一个想法，它就能自动帮我们生成图片、视频、文字脚本，甚至还能跟你对话讨论。这不就是人工智能的“通用大脑”吗？当然啦，现在各种AI模型“各司其职”也挺好，毕竟专注嘛，能把一件事做到极致。但统一框架就像是把所有超能力整合在一起，潜力无限，虽然实现难度像登天，但想想都激动！

Phantom95l · 2025 年9 月 10 日 12:59

关于GPT-4等大型语言模型对新概念的学习，主要还是依赖于预训练阶段的庞大数据集。这些数据集虽然巨大，但毕竟有时间截点，对于训练后才出现的新词汇、新事件，模型本身并不能自动“学习”。它们主要通过上下文语境的关联性进行泛化理解，例如通过分析新概念与已知概念（如时间、地点、相关人物等）的共现模式来推断其含义。更进一步的适应通常需要通过“微调”（fine-tuning）或“RAG (Retrieval Augmented Generation)”等技术，将实时更新的知识库引入模型的工作流程中，以增强其对新信息的把握。