快手与南开大学推出MODA模型:模块化双工注意力机制重塑多模态情感理解

快手南开联合提出MODA,以全新注意力机制显著提升多模态大模型情感理解能力,研究入选ICML 2025焦点论文。

原文标题:ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!

原文作者:AI前线

冷月清谈:

快手可灵团队与南开大学近期在多模态情感理解领域取得了开创性进展,他们定位并解决了现有多模态大模型在情感线索捕捉中的关键短板:即由于以语言为中心的预训练机制导致的“模态偏置”和层间“注意力不一致”问题。研究团队提出了一种全新的模块化双工注意力机制(Modular Duplex Attention, MODA),并基于此构建了‘摩达(MODA)’模型。该模型通过双工注意力对齐和模块化注意力掩码,有效矫正了多模态特征流中的缺陷。

实验结果表明,MODA范式成功将跨模态注意力差异率显著降低,并在包括通用对话、知识问答、视觉感知、认知分析及情感理解在内的六大类、21个基准测试中均实现了显著性能提升。尤其在细粒度认知和情感理解任务中,大幅超越以往模型。‘摩达’模型展现出强大的内容感知、角色认知与情感理解综合能力,能精准识别用户意图与情感倾向,甚至在人机对话场景中实现像人类导演般“预判剧情走向”的智能交互。该研究成果已被ICML 2025收录并获选焦点论文(Spotlight,Top 2.6%),目前已成功应用于快手可灵数据感知项目,显著提升了数据分析精度和产品效果。

怜星夜思:

1、文章里提到MODA模型能显著提升多模态大模型的情感理解能力,甚至可以在心理咨询中识别矛盾情绪。大家觉得,这项技术真的能让AI在心理咨询这块儿变得更靠谱吗?除了心理咨询,未来这项技术还能在哪些具体场景派上大用场?
2、文章里提到,现有多模态大模型会有“模态偏置”和“注意力失调”的问题,感觉就像AI有了“偏见”和“选择困难症”一样。大家在日常使用AI产品时,有没有什么经历能直观感受到AI的这种“小毛病”?比如说它哪里让你觉得“不平衡”或者“顾此失彼”了?
3、这项研究听起来很棒,MODA模型被ICML 2025选为焦点论文,这可是AI领域的顶级会议。想问问大家,对于AI研究来说,一篇论文能被顶级会议收录并评为焦点论文,具体意义有多大?对快手和南开大学这样的研究团队来说,这意味着什么?是不是以后相关的AI产品也会更快更好地走入我们的生活?

原文内容

“情智兼备”是新一代人工智能的重要发展方向,是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态交互信息,深度挖掘人类内在情感状态,从而实现更具真实感与自然性的人机对话。然而,面对多模态情感数据语义的高度复杂性,如何有效建模跨模态关联关系仍是领域内亟待突破的核心挑战。

针对这一技术瓶颈,快手可灵团队与南开大学在「多模态情感理解」领域完成了开创性研究,成功定位了现有多模态大模型在情感线索捕捉中的关键短板。研究团队从多模态注意力机制的维度切入,提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型‘摩达(MODA)’。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的 21 个基准测试中均实现了显著性能提升。此外,基于新的注意力机制,‘摩达’在角色剖析与规划演绎等人机交互场景中表现出色。目前,该研究成果已被 ICML 2025 收录,并获选焦点论文(Spotlight,Top 2.6%)。

  • 论文标题:MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding 

  • 论文地址:https://arxiv.org/abs/2507.04635 

  • 项目主页:https://zzcheng.top/MODA/ 

  • 模型地址:https://huggingface.co/KwaiVGI/MODA 

  • 代码地址:https://github.com/KwaiVGI/MODA

一、研究背景

利用多种线索预测人类的情感状态,赋予了多模态大模型更强的拟人能力 [1]。现有的主流多模态大模型具有通用可泛化的注意力架构,然而以语言为中心进行预训练机制导致其存在模态偏置,难以关注到细粒度的情感线索。基准测试表明,现有方法在需要细粒度认知和情感理解的高级任务中表现不佳,甚至低于随机猜测水平 [2]。例如,在二分类讽刺检测任务中,三个最先进的多模态方法仅能达到 50:50 的识别准确率。

这一现象的根源在于对主导模态的过度关注,从而忽视了辅助模态中蕴含的细粒度线索。我们深入探究其内在原因,重点分析了用于混合多模态线索的注意力机制。如图 1(a) 和 (b) 所示,现有模型难以捕捉细粒度细节(例如角色的眼神、对话中的关键词),最终导致情感理解的错误。其核心的问题是多模态大模型多个注意力层之间的注意力不一致(图 1(c) 中跨模态的注意力差异高达 63%),即多模态注意力失调现象。具体表现为:一方面,多模态大模型的注意力分数偏向于文本模态;另一方面,注意力的逐层衰减,进一步加剧了模态间的差异。最终,不同模态之间的注意力分数差异最高可达 10 倍。

图 1: 多模态注意力失调制约模型能力

为解决这一问题,本研究从多模态注意力机制的视角出发,指出了现有多模态大模型的关键卡点,并深入分析了其失效 / 失能的核心成因。基于上述观察,我们提出一种模块化的双工注意力范式,并据此构建了一个新一代多模态模型‘摩达’。该模型专为感知(Perception)、认知(Cognition)、情感(Emotion)等多层次任务设计,显著提升了模型在细粒度理解、复杂规划和交互任务上的能力。

二、多模态注意力失调问题

注意力机制通过计算多模态词元间的相似性和掩码来控制词元间的交互。为了研究多模态注意力失调问题,我们在四类细粒度理解问题上进行实验分析。

如图 2(a) 所示,实验结果显示视觉内容所分配的注意力明显低于文本模态。这一现象符合预期,因为基于自回归模型微调而来的多模态大模型,通常在处理细粒度视觉感知时面临固有挑战。此类模型的架构设计最初主要针对文本任务优化,因此在在扩展到多模态场景时,视觉特征受关注的程度不足。这种模态间不平衡突显了当前架构中的关键局限性:模型在文本处理方面的能力并未平滑地转化为同等水平的视觉处理能力。

进一步揭示,在图 2(b) 和 (c) 中,模型跨越 32 个层级间表现出显著的跨模态注意力偏差。较高层与较低层的注意力分布存在明显不一致。具体而言,较低层通常过度关注跨模态交互,因此牺牲了有效捕捉模态内特征的能力。这种错位导致了多模态集成效果欠佳。原因在于,当模型从低层次向高层次特征抽象过渡时,跨模态的注意力得分随着层次加深而降低,致使视觉模态的信息在一定程度上被稀释了。

以此为基础,引出多模态注意力失调问题。给定层 中的视觉词元 和文本词元 多模态注意力通过以下两部分建立链接(即,自模态 , 和跨模态 , ,其中链接通常通过成对词元的相似性和加权求和来实现。然而,由于词元之间的模态差距,链接的强度会减弱,链接值 会随着深度呈指数衰减 α γ , γ≠ 1。这种失配会逐层传播,导致跨模态交互中的累积误差随着层数增长而增加: = γ ϵ ,这里 ϵ 表示第 层的对齐误差。这一发现现象与前人理论研究[3]的见解相吻合,其中纯注意力机制会经历秩崩塌(rank collapse),而这正是加剧注意力分布不平衡的关键因素。

图 2: 预实验证明了多模态注意力失调的存在

三、模块化双工注意力

为克服多模态注意力失调的问题,我们提出对来自多个模态的词元进行对齐的新方案,即模块化双工注意力。该范式的核心设计是将多模态注意力划分为两个部分:模态对齐部分和词元焦点修正部分。如图 3 所示,以图像与上下文(如对话的背景和历史消息)提示作为输入。借助模块化双工注意力,得以矫正大模型中由于模态偏置而导致的错误多模态特征流。通过双工注意力对齐和模块化注意力掩码以“对齐后修正”的方式修正存在缺陷的注意力分数。

图 3: ‘摩达’网络架构 

3.1 双工注意力对齐

为了减少模态不一致性,一个直观的解决方案是将多模态特征进行对齐。受到扩散模型中视觉 - 语言嵌入空间映射最新进展的启发 [4],我们提出了基于 Gram 矩阵的嵌入空间基向量进行跨模态语义迁移。具体来说,根据词元表征计算 Gram 矩阵,从中提取每个模态空间的基向量,压缩每个模态的语义,并作为其他模态的转移。因此,双工注意力对齐包括 V-Aligner 和 T-Aligner,分别负责视觉和语言模态。

对于第 模态,空间基是根据归一化的Gram矩阵 给出的,其中 是词元  之间的内积:

其中 是第 个模态词元的键状态, 是属于模态 的词元数量。通过包括由 Gram矩阵定义的空间基向量,可以有效捕捉词元之间的关系,从而构建出一个既有丰富信息又能保持数据内在结构的特征表示。

作为后续工作,归一化的Gram矩阵充当跨模态词元转移函数,使得来自其他模态𝑚的词元能够高效地转换到模态 ,作为一个核化映射函数 。对齐后的词元计算如下:

其中 表示来自其他模态 的值。映射后的词元与原始词元进一步融合,以增强所有模态之间的词元相似性。

3.2 模块化注意力掩码

注意力掩码控制词元在变换器层之间的流动,并为多模态大模型引入位置偏差。为了更好地适应多模态词元序列的需求,为每个模态分配一个调节后的注意力掩码,分为 ,负责模态内和模态间注意力:

为了缓解塌陷的注意力矩阵并防止它在词元上过度平滑,提出一种模块化注意力掩码,它选择将不必要的注意力值存储在这些伪注意力分数中。对于每一行(即第 个词元的所有注意力分数),它可以注意到的序列长度固定为 。因此,每行中将有 个伪注意力分数,用于过度注意力分配。将注意力分数转化为:

其中γ是衰减率超参数。

除了绝对位置先验信息外,进一步引入模态位置以强制模型修正词元在模型层间的流动。引入归一化的 Gram 矩阵作为指标,找出哪些部分应该携带模态位置先验信息。这种分离允许更精确地控制同一模态中的词元如何相互作用,以及它们如何与来自其他模态的词元交互。

具体来说,利用视觉和文本模态的Gram矩阵作为基向量,这里 , 为视觉和文本模态的归一化Gram矩阵。

进一步利用多个模态的特征捕捉各个注意力头的特征。这里, 为注意力头的特征维度。

然后,将各个注意力头的基向量进行上采样,对齐基向量与注意力图的尺寸到 ,然后将上采样后的基向量与跨模态注意力掩码Ocross相加,得到最终的跨模态注意力掩码。对于视觉模态注意力掩码,用视觉基向量进行映射与下采样,得到尺寸为 觉模态掩码。相似的,得到尺寸为 的文本模态掩码,最终与自模态注意力掩码Oself相加,得到最终的自模态注意力掩码。

四、实验结果

实验结果表明,通过引入模块化双工注意力范式,模态偏置引起的注意力失调问题得到了有效缓解,在基于此范式构建的 80 亿与 340 亿参数量级多模态模型成功实现了性能显著提升。该范式专为多模态大模型网络架构设计,能够无缝替换原有注意力模块,并有效促进多模态信息的深度融合。

①缓解多模态注意力失调: MODA 有效缓解了跨模态间的注意力差异问题。如图 4 所示,该范式将模型各层的跨模态注意力差异率由原本的 56% 与 62% 显著降低至 50% 与 41%。

图 4: 模块化双工注意力机制在缓解多模态注意力失调问题上的效果

②性能提升

  • 内容感知能力:如表 1 所示,MODA 在包含通用对话、知识问答、表格 OCR、视觉感知四大类任务(共计 16 个数据集)的内容感知方面展现出明显优势。

  • 认知与情感理解能力: 如表 2 所示,MODA 在认知分析和情感理解两大类任务(共计 5 个数据集)上的性能也得到显著提升。

表 1:‘摩达’在通用对话、知识问答、表格 OCR、视觉感知 4 大类任务上的表现

表 2:‘摩达’在认知分析与情感理解 2 类任务上的表现

③多功能性:MODA 具备内容感知、角色认知与情感理解的综合能力(图 4 提供可视化样例)在对话场景中,MODA 精准识别用户意图与情感倾向,并基于角色配置文件自动适配符合场景规范的响应策略。

图 4:‘摩达’在内容感知、角色认识与情感理解三个方面可视化样例

④人机对话应用:MODA 在人机对话场景中展现出强大潜力(应用示例见图 6)。模型可实时解析用户的微表情、语调及文化背景特征,构建多维人物画像,并深度理解角色动机与情感脉络以自动规划对话策略。例如在心理咨询中识别矛盾情绪并引导倾诉,或在虚拟偶像交互中动态调整角色台词风格。这种能力突破了传统规则式应答的局限,使 AI 能够像人类导演般"预判剧情走向",在金融客服、沉浸式娱乐等领域实现有温度的人格化服务。

图 6: ‘摩达’在人机对话场景中的应用示例 

MODA 已成功应用于快手可灵数据感知项目,重点通过细粒度情感感知显著增强了数据分析能力。在情感识别与推理任务中,MODA 展现出卓越的性能,有效提升了分析的精度和应用效果,尤其是在情感变化检测和个性化推荐任务中提升感知精度,有力支撑了可灵视频生成产品的性能。

图 7: ‘摩达’在可灵数据细粒度感知项目中的应用示例

点击阅读原文即可跳转模型地址。

参考文献:

[1]Sicheng Zhao, Guoli Jia, Jufeng Yang, Guiguang Ding, Kurt Keutzer. Emotion recognition from multiple modalities: Fundamentals and methodologies. IEEE Signal Processing Magazine, 38(6): 59-73, 2021.

[2]Zhiwei Liu, Kailai Yang, Qianqian Xie, Tianlin Zhang, Sophia Ananiadou. EmoLLMs: A series of emotional large language models and annotation tools for comprehensive affective analysis. KDD, 2024.

[3]Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas. Attention is not all you need: Pure attention loses rank doubly exponentially with depth. ICML, 2021.

[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. High-resolution image synthesis with latent diffusion models. CVPR, 2022.

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


今日荐文

图片

你也「在看」吗?👇

针对第一个问题:我觉得AI在心理咨询方面能起辅助作用,但彻底“靠谱”还很难说。毕竟人类的情绪非常复杂,光靠模型理解可能不够,还需要共情、伦理判断和责任承担。AI可以作为初筛或缓解轻度情绪问题的工具,但取代人类心理咨询师,路还很远。至于第二个问题:用武之地可太多了!比如电商客服可以根据用户情绪提供更个性化的服务;教育领域可以识别学生的学习情绪,调整教学节奏;还有游戏里的NPC,能更真实地与玩家互动,让游戏体验更沉浸。甚至在智能穿戴设备上,监测健康情绪状态也有潜力。

在ICML这种顶级会议上获得Spotlight(焦点论文),这绝对是业界和学界对一项研究的最高认可之一了!它意味着这篇论文在原创性、技术深度、实验完整性以及潜在影响力方面都达到了极其卓越的水准,被认为是该领域的重要突破。对快手来说,这是对其AI研发实力和技术创新能力的强有力证明,有助于吸引顶尖人才,提升公司在技术竞争中的优势,并加速相关技术在产品中的落地。对南开大学而言,则彰显了其在基础科研领域的国际领先地位,为培养高水平人才和争取更多科研项目奠定基础。这些成果的积累,当然会加速AI技术转化为更智能、更懂用户的产品,走进日常生活。

是啊,感觉很多AI产品都有这种“轴”劲儿!我用AI写诗,给它一张图和几个关键词,它写出来的诗词虽然是关于图里的东西,但总是感觉“少了点什么味儿”,或者没有抓住图里那种微妙的情绪。这可能就是它过度关注文本信息,而对图像中传达的意境和情绪理解不够吧?它没能把图像和文字完美地结合起来。有时候就觉得,哎呀,你得再聪明一点点,能读懂我的“弦外之音”就好了!

AI心理咨询?听起来就特酷炫!但要让我把真心话说给一个机器听,总感觉有点怪怪的。不过,如果是像一个“情绪检测仪”一样,帮我分析我现在是不是焦虑啦、不开心啦,然后给我一些简单的建议,我觉得挺好的。我倒是觉得它在虚拟偶像、陪聊机器人这些地方可能更有市场。想象一下,一个虚拟偶像能懂你的喜怒哀乐,并且给出恰到好处的回应,那体验感不是直接拉满?还有老年人陪护,有个AI能随时关心他们情绪,也很棒啊!

嗯,焦点论文通常占据了会议投稿中极小的比例(比如文中提到的Top 2.6%),这本身就说明了其高质量和高影响力。它不仅代表了学术界的认可,更是对研究方向的一个重要风向标。对于快手,这意味着其前瞻性的技术投入开始收获国际权威认可,这将为其在激烈的人工智能竞争中提供强大的品牌和技术优势,有助于将其AI能力渗透到更多核心产品线。对于南开大学,这不仅提升了学校的科研声誉,也为师生提供了国际交流和合作的宝贵机会。当然,顶级研究成果转化为产品需要时间,但无疑会催生更多以情感理解为核心的创新AI应用,让我们的数字生活更加智能化和人性化。

从技术角度看,MODA无疑是朝着这个方向迈出了一大步,它确实提升了模型对细粒度情感线索的捕捉能力。但“靠谱”是多维度的,除了技术准确性,还涉及到用户接受度、数据隐私、模型偏见以及紧急情况处理等伦理和实际操作问题。所以说,AI心理咨询是未来趋势,但目前更多是辅助性质。具体场景方面,除了文章提到的金融客服、虚拟偶像,我觉得在多模态内容理解(如影视作品分析情绪走向)、智能写作(生成带有特定情感色彩的文案),甚至人机协作中,让机器更好地理解人类意图和情绪,都能大大提升效率和体验。

哇塞,ICML焦点论文,这不就是AI圈的“诺贝尔奖预备役”嘛!这说明他们的研究是真材实料的硬核创新,不是那种水文。对快手和南开来说,那就是面子里子都有了!名气大振,以后招人肯定更容易,项目更容易拉到资金。这对我们用户来说是好事啊,意味着我们以后用的快手啊、各种AI啊,会越来越聪明,越来越懂你。比如短视频推荐能更懂你的心情,美颜相机能更知道你想要什么效果,想想就觉得未来可期啊!