清华大学IJCAI 2025教程:多模态生成式AI在动态开放环境下的挑战与进展

清华IJCAI2025教程:多模态生成式AI如何应对动态开放环境挑战与前沿技术。

原文标题:【IJCAI2025教程】动态开放环境下的多模态生成式人工智能

原文作者:数据派THU

冷月清谈:

这份来自清华大学研究人员的IJCAI 2025教程,致力于分享多模态生成式人工智能的最新进展。教程核心聚焦于两大类主流技术:用于理解的多模态大语言模型(MLLM)和用于视觉生成的扩散模型(Diffusion Models)。它系统地探讨了这些模型的概率建模方法、架构设计以及复杂的多模态交互机制。

文章指出,在不断变化的数据分布、新兴概念涌现以及日益复杂的应用场景下,动态开放环境给多模态生成模型带来了巨大挑战。为了应对这些难题,教程提出了两大解决方案和未来发展方向:其一,是发展能够实现泛化的后训练技术,旨在帮助多模态生成模型快速适应新概念;其二,是构建统一的多模态生成与理解框架,以期能有效支撑和处理更为复杂的跨模态任务。

教程大纲涵盖了从生成式模型基础介绍到MLLM、扩散模型、新概念泛化后训练、统一理解生成模型以及未来发展方向等多个部分,内容系统且深入。本教程旨在为对生成式AI、多模态、MLLM和扩散模型感兴趣的研究人员提供前沿知识和宝贵洞察,帮助他们了解该领域的最新动态和未来趋势。

怜星夜思:

1、像GPT-4这种大模型,它怎么“学习”我们生活中每天都在涌现的新词、新概念和新知识啊?是不是光靠训练数据就够了,还是有啥别的“魔法”?
2、文章里提到要搞“统一的多模态理解生成框架”,这是不是意味着以后我们只需要一个模型就能搞定所有AI任务了?跟现在各种AI模型“各司其职”比起来,哪种方式更厉害,或者说优缺点在哪?
3、动态开放环境下的多模态生成式AI听起来很牛,但它会不会带来一些意想不到的社会问题啊?比如内容真实性、信息茧房、或者我们普通人怎么去分辨AI生成的内容?

原文内容

图片
来源:专知
本文约1000字,建议阅读5分钟
来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程,值得关注!


2025年的IJCAI(International Joint Conference on Artificial Intelligence) 于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。

来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程,值得关注!

https://mn.cs.tsinghua.edu.cn/ijcai25-aigc/

概述

本教程旨在传播和推广多模态生成式人工智能的最新研究进展,重点聚焦于两大类主流技术:用于理解的多模态大语言模型(Multimodal Large Language Models)以及用于视觉生成的扩散模型(Diffusion Models)。本教程系统性地讨论多模态大语言模型与多模态扩散模型,涵盖其概率建模方法、模型架构以及多模态交互机制等内容。

在动态与开放的环境中,不断变化的数据分布、新兴概念的出现以及日益复杂的应用场景,为多模态生成模型带来了巨大挑战。本教程将从两个方面探讨应对这些挑战的解决方案及未来方向:其一是能够实现泛化的后训练技术,以帮助多模态生成模型适应新概念;其二是发展统一的多模态生成与理解框架,以支持复杂的多模态任务。

教程大纲

本教程的时长为1.5小时。

第一部分:生成式模型介绍(5分钟)

前置知识:大语言模型、多模态生成式人工智能

  • 大模型新范式

  • 多模态生成式人工智能的应用领域

  • 多模态生成式人工智能的两类模型:多模态大语言模型与扩散模型


第二部分:多模态大语言模型(10分钟)

多模态大型语言模型 (MLLM) 近年来已成为多模态理解领域的主流。本节对多模态大型语言模型进行回顾和总结。

  • 自回归建模

  • 视觉语言预训练

  • 视觉分词器


第三部分:扩散模型(10分钟)

扩散模型(Diffusion Model)已成为视觉生成领域的主流模型。本节对扩散模型进行回顾和总结。

  • 去噪扩散概率模型

  • 潜空间扩散模型

  • 流匹配

  • 文生图、文生视频等应用


第四部分:新概念泛化的后训练(35分钟)

介绍动态开放环境的主要挑战,并提出应对这一挑战的方式之一:新概念泛化的后训练技术。

  • 空间解耦后训练

  • 时空解耦后训练


第五部分:统一理解生成模型(15分钟)

本节主要关注统一的多模态理解和生成模型。

  • 概率建模过程

  • 模型架构


第六部分:未来方向(10分钟)

  • 具有物理规律的生成式人工智能

  • 理解生成一体化基准测试

  • 多模态图生成人工智能

  • 具身生成人工智能


第七部分:开放讨论(5分钟) 

目标受众

本教程的目标受众是人工智能领域的研究群体,尤其是对生成式人工智能、多模态、多模态大语言模型以及扩散模型感兴趣的研究人员。

教程目标:本教程聚焦于多模态生成式人工智能的最新进展,以及当前的热点方向——统一的多模态生成与理解框架。听众将能够了解多模态生成式人工智能的概率建模方法、模型架构,以及一些前沿应用。 



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


要说“学习”新概念,我觉得目前的大模型还远没达到人类那种主动、高效、无监督的学习能力。它们更多的是“整合”和“推断”。比如说“文心一言”,ChatGPT这些,它虽然能回答最新发布的新功能,但它其实并没有真正的“思考”或“理解”你的新词,它只是通过庞大的语料库和神经网络的连接,找到最接近、最合理的输出。对于真正意义上的“新”,如果没有大量相关数据或人工干预,它其实是盲区。所以,要适应动态开放环境,实时更新知识、提升泛化能力,仍然是LMM领域的核心挑战。

哈哈,我觉得大模型有点像我们以前读书时候的“死记硬背”,它记住了海量的知识。新概念嘛,它也不是直接“学会”了,而是通过它学过的那些无数个例子,比如看到一个新词出现在很多和“虚拟现实”相关的句子里,它就能大概猜到这词是干啥的。如果实在没见过,或者跟它学过的知识没啥联系,那它也懵圈。感觉就像我们去图书馆查资料,查不到最新出版的书,但能根据旧书推断点啥。有时还得靠“老师”给它补课(微调新的数据)才行。

“统一的多模态理解生成框架”确实是未来AI发展的重要方向之一,它追求的是通过一个模型或一套紧密协作的模型来处理文本、图像、音频等多种模态的数据,并能同时进行理解和生成任务。优点在于:首先是效率,减少了模型间切换的成本;其次是增强了模态间的协同能力,能处理更复杂的跨模态任务(比如根据视频生成详细解说并从中提取关键画面)。然而,挑战也显而易见:模型复杂度会大大增加,训练所需的计算资源和数据量更为庞大;同时,在大一统模型中,如何确保所有子任务都能达到最佳性能,如何避免“样样通样样松”的问题,也是需要深入研究的。目前看来,特定领域的高性能任务可能仍需要专业模型来补充。

你提的这些问题真是说到点子上了,这也是我最担心的。动态开放环境意味着AI产出的内容会更快、更广泛地传播,而且实时性更强。这无疑会加剧内容真实性的挑战,比如“深度伪造”(deepfake)的应用会更难被识别,公众在辨别真伪信息时将面临巨大压力,可能导致信任危机。此外,AI生成的内容如果过度个性化,确实可能进一步强化“信息茧房”效应,我们看到的都是AI觉得我们想看的东西,视野反而可能变得狭窄。如何建立有效的AI内容识别标准、推行AI生成内容的强制性标记,以及提升公众的批判性思维能力,都是刻不容缓的社会课题。

一个模型搞定所有AI任务?听起来很诱人,但我觉得短期内不太现实。就像我们人类一样,虽然都有大脑,但有的人擅长理工,有的人擅长文科。统一框架的优点在于它能更好地理解不同模态之间的关联,比如生成一张图的同时,理解图里内容的深层含义。但缺点是它可能会牺牲在某些特定任务上的精度和效率。比如专门做图像识别的模型,可能在识别率上就是比大一统模型强。所以,未来的趋势可能更像是“大一统核心+精细化插件”的模式,核心框架负责通用能力,特定领域再用专业模型进行优化。

哇塞,如果真能实现统一的多模态理解生成框架,那简直是AI界的“瑞士军刀”啊!想想看,以后就不用担心这个模型只能画画,那个模型只能写文章了。我们输入一个想法,它就能自动帮我们生成图片、视频、文字脚本,甚至还能跟你对话讨论。这不就是人工智能的“通用大脑”吗?当然啦,现在各种AI模型“各司其职”也挺好,毕竟专注嘛,能把一件事做到极致。但统一框架就像是把所有超能力整合在一起,潜力无限,虽然实现难度像登天,但想想都激动!

关于GPT-4等大型语言模型对新概念的学习,主要还是依赖于预训练阶段的庞大数据集。这些数据集虽然巨大,但毕竟有时间截点,对于训练后才出现的新词汇、新事件,模型本身并不能自动“学习”。它们主要通过上下文语境的关联性进行泛化理解,例如通过分析新概念与已知概念(如时间、地点、相关人物等)的共现模式来推断其含义。更进一步的适应通常需要通过“微调”(fine-tuning)或“RAG (Retrieval Augmented Generation)”等技术,将实时更新的知识库引入模型的工作流程中,以增强其对新信息的把握。