MME-Emotion:多模态大模型情感智能综合评测基准

MME-Emotion,一个大规模多模态情感智能评测基准,旨在衡量大模型是否真正理解人类情绪。实验表明,现有模型的情感理解能力仍有待提高。

原文标题:ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

原文作者:机器之心

冷月清谈:

本文介绍了香港中文大学和阿里通义实验室联合提出的 MME-Emotion,一个旨在全面评估多模态大模型情感智能的评测基准。该基准包含约 6500 段视频片段及对应问答数据,覆盖 27 类真实场景,并设计了 8 类不同情感任务,强调模型在真实环境中融合视觉、语音和语言信息的能力。MME-Emotion 不仅评测情绪识别的准确率,还关注模型的情绪推理能力,提出了包括情绪识别得分、推理得分和综合思维链得分在内的统一评测指标体系。研究团队还设计了一套基于多智能体系统的自动评测流程,并验证了其可靠性。实验结果表明,当前主流多模态大模型在情感智能方面仍有明显不足,尤其是在细粒度视觉理解和多模态信息融合方面。MME-Emotion 的发布为多模态情感智能的研究提供了统一评测标准和参考基线。

怜星夜思:

1、MME-Emotion 评测基准强调了情绪推理能力的重要性,那么,除了文章中提到的面部表情、语音颤抖等线索,你认为在真实场景中,还有哪些因素会影响我们对他人情绪的判断?
2、文章提到目前多模态大模型在细粒度视觉理解方面存在不足,难以区分相似情绪,你觉得可以通过哪些技术手段或数据增强方法来改善这一问题?
3、MME-Emotion 的实验结果表明,即使是先进的模型在情感智能方面仍有不足。你认为除了技术上的挑战,情感智能的发展还面临哪些伦理或社会方面的考量?

原文内容


近年来,多模态大模型(Multimodal Large Language Models, MLLMs)正在迅速改变人工智能的能力边界。从图像理解到视频分析,从语音对话到复杂推理,大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答:这些模型真的能够理解人类情绪吗?


在真实世界中,人类的情绪往往通过多个模态共同表达。例如,一个人可能通过面部表情传递紧张情绪,同时语音语调也在变化,而语言内容可能只提供部分线索。对于人工智能系统而言,仅依赖单一信息来源往往难以准确判断情绪状态。因此,情感智能(Emotional Intelligence)逐渐成为衡量多模态大模型能力的重要指标之一。


然而,目前学界仍然缺乏一个系统性的评测框架来衡量多模态大模型的情感智能水平。已有情感数据集通常规模较小,场景覆盖有限,而且大多只关注情绪分类准确率。模型是否真正理解情绪产生的原因,以及能否在不同场景中稳定工作,往往没有得到充分评估。


为了解决这一问题,来自香港中文大学和阿里通义实验室的团队共同提出了 MME-Emotion,一个面向多模态大模型情感智能的综合评测基准。该工作已被 ICLR 2026 接收



  • 论文标题:MME-Emotion: A Holistic Evaluation Benchmark For Emotional Intelligence in Multimodal Large Language Models

  • 项目主页:https://mme-emotion.github.io

  • 论文代码:https://github.com/FunAudioLLM/MME-Emotion

  • 论文数据:https://huggingface.co/datasets/Karl28/MME-Emotion


MME-Emotion 是目前规模最大的多模态情感智能评测基准之一,包含约 6500 段视频片段及对应问答数据,覆盖 27 类真实场景,并设计了 8 类不同情感任务。相比传统数据集,这一基准强调真实环境中的多模态信息融合能力,使模型必须同时理解视觉、语音和语言信息。



这些任务包括实验室环境情绪识别、真实场景情绪识别、噪声条件下情绪识别、细粒度情绪识别、多标签情绪识别、情感倾向分析、细粒度情感分析以及意图识别等多个方向。不同任务之间保持相对均衡的数据分布,使评测结果更加稳定可靠。


与以往工作相比,MME-Emotion 的一个重要特点是同时评测情绪识别能力和情绪推理能力。在许多已有数据集中,只要模型预测正确的情绪标签即可获得高分,但这种评测方式无法区分「猜对答案」和「真正理解情绪」的差别。


例如,在一个视频中,如果人物表现出恐惧情绪,模型不仅需要给出 “恐惧” 这一标签,还需要能够指出支撑这一判断的线索,例如面部表情变化、语音颤抖或者语速变化等。只有在这种情况下,我们才认为模型具备一定程度的情感理解能力。



为此,MME-Emotion 提出了一套统一的评测指标体系,包括情绪识别得分(Recognition Score)、推理得分(Reasoning Score)以及综合思维链得分(Chain-of-Thought Score)。其中识别得分用于衡量情绪预测准确率,推理得分用于衡量模型推理过程的合理性,而综合得分则同时反映识别能力与推理能力。


为了支持大规模自动评测,研究团队设计了一套基于多智能体系统的评测流程。系统首先获取模型对问题的回答,然后自动提取回答中的关键推理步骤,并结合视频帧信息和语音线索进行评分。这种方法避免了传统评测中大量人工标注推理过程的成本问题。


为了验证自动评测的可靠性,研究团队还邀请了多位专家对部分样本进行了人工评测。结果表明,自动评分与人工评分之间具有较高一致性,说明这一评测方法在实际使用中具有较好的稳定性。




在 MME-Emotion 基准上,研究团队评测了 20 个当前主流多模态大模型,包括多个开源模型以及闭源模型,如 GPT-4o、Gemini 系列以及 Qwen 系列模型。


实验结果显示,即使是当前最先进的模型,在情感智能方面仍然存在明显不足。表现最好的模型情绪识别得分不到 40%,综合思维链得分也只有约 56%。从整体平均结果来看,各模型在情绪识别任务上的表现仍然处于较低水平。


这些结果说明,多模态大模型虽然在视觉理解和语言推理方面取得了显著进展,但情感理解仍然是一个具有挑战性的方向



进一步分析发现,目前模型在情感任务中主要存在几类典型问题。


首先是细粒度视觉理解能力不足。在许多错误案例中,模型难以区分相似情绪,例如恐惧与惊讶之间的差别。这类错误通常源于对面部表情和细微动作变化理解不足。


其次是多模态信息融合能力有限。一些模型在仅使用视觉信息时表现尚可,但当需要同时结合语音和视觉信息时反而出现性能下降。这说明当前模型在处理多模态情感线索时仍然存在困难。



此外,研究还发现模型推理能力与情绪识别能力之间存在明显相关性。通常来说,能够给出更完整推理过程的模型,其整体情感智能表现也更好。这一现象表明,推动模型进行更深入的推理可能是提升情感智能的一条重要路径。


整体来看,MME-Emotion 提供了一个更加全面的评测框架,使研究者能够系统分析多模态大模型在情感理解方面的能力边界。


研究团队认为,未来多模态情感智能的发展可能依赖几个关键方向,包括更高精度的视觉细节建模、更有效的语音与视觉信息融合方法,以及能够解释情绪产生原因的推理机制。


随着多模态大模型不断发展,情感智能有望成为人工智能系统的重要能力之一。在教育、人机交互和医疗辅助等应用场景中,能够理解人类情绪的智能系统将具有重要价值。


MME-Emotion 的发布为这一研究方向提供了统一评测标准,也为后续模型改进提供了清晰的参考基线。


作者介绍


章帆,香港中文大学计算机科学与工程系博士生,导师为 Pheng-Ann Heng 教授。主要研究方向为多模态大模型与 Agent 系统,关注多模态理解、推理能力评测以及面向复杂任务的智能体工作流设计。近年来在 ICLR、CVPR、NeurIPS 等国际会议发表多篇论文,相关研究工作涵盖多模态大模型评测基准构建、后训练以及深度研究型智能体(Deep Research Agents)。目前致力于探索多模态 Agent 系统在复杂真实任务中的能力边界与应用潜力。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得情感AI在人机交互方面大有可为。想象一下,未来的智能助手不仅能听懂你的指令,还能理解你的情绪,给你提供更个性化、更贴心的服务。比如,当你心情不好时,它会自动播放一些舒缓的音乐,或者推荐一些你喜欢的电影。这才是真正的智能!

我觉得文章里说的挺清楚的,光识别情绪,没法区分模型是真理解还是瞎蒙的。就像考试只看对错,不看解题过程,那作弊的也能得高分啊!

我认为需要从数据层面入手,构建更加多样化、高质量的多模态情感数据集,并设计有效的预训练任务,让模型在海量数据中学习到不同模态之间的关联性。同时,可以探索神经符号结合的方法,将人类的情感知识融入到模型中,增强模型的可解释性。

情感AI在心理健康领域有很大的应用潜力。比如,可以开发能够识别用户情绪的聊天机器人,为有心理困扰的人提供及时的支持和疏导。或者,可以利用情感AI来分析患者的语音和面部表情,辅助医生进行诊断和治疗。

因为人类的情感是很复杂的,不是简单的yes or no。一个表情可能代表多种情绪,需要结合语境和环境来判断。只识别情绪,就像是把AI当成了只会贴标签的工具人,没有灵魂!

想解决细粒度视觉理解的问题,感觉可以借鉴一下现在火爆的Vision Transformer,把图像分成更小的块,让模型能关注到更细微的表情变化。另外,用GAN来生成一些更逼真的表情数据,也能帮模型提升识别能力。

问题:MME-Emotion 的实验结果表明,即使是先进的模型在情感智能方面仍有不足。你认为除了技术上的挑战,情感智能的发展还面临哪些伦理或社会方面的考量?

最直接的伦理问题就是隐私泄露吧。如果模型能精准识别人的情绪,那是不是意味着它可以被用来操控、监视我们?想想就可怕。所以,在使用这些技术的时候,一定要有严格的监管和限制。

问题:MME-Emotion 评测基准强调了情绪推理能力的重要性,那么,除了文章中提到的面部表情、语音颤抖等线索,你认为在真实场景中,还有哪些因素会影响我们对他人情绪的判断?

除了面部表情和声音,文化背景绝对是重要一环!同样一个动作,在不同文化里可能代表不同情绪。比如,点头在咱们这儿是肯定,在其他地方可能就是否定了。所以模型要真理解情绪,还得懂文化差异才行。

问题:MME-Emotion 的实验结果表明,即使是先进的模型在情感智能方面仍有不足。你认为除了技术上的挑战,情感智能的发展还面临哪些伦理或社会方面的考量?

还有一个潜在的风险是加剧社会不平等。如果情感智能技术只被应用于某些特定群体,比如用于提升销售人员的服务水平,或者用于监控员工的工作状态,那可能会导致资源分配更加不均,加剧社会分化。

问题:MME-Emotion 评测基准强调了情绪推理能力的重要性,那么,除了文章中提到的面部表情、语音颤抖等线索,你认为在真实场景中,还有哪些因素会影响我们对他人情绪的判断?

我觉得环境因素也很关键。想象一下,在安静的图书馆里和在拥挤的演唱会现场,即使是同样的微笑,给人的感觉也可能完全不同。图书馆里的微笑可能表示友好和礼貌,而在演唱会上可能只是兴奋的表达。所以,要准确判断情绪,必须结合具体的情境。

问题:文章提到目前多模态大模型在细粒度视觉理解方面存在不足,难以区分相似情绪,你觉得可以通过哪些技术手段或数据增强方法来改善这一问题?

引入注意力机制会不会有帮助?让模型更关注面部关键区域,比如眼角、嘴角等。同时,可以收集更多包含细微表情变化的数据,特别是针对容易混淆的情绪,进行专门训练。这样模型就能更好地捕捉那些不易察觉的细节了。

问题:文章提到目前多模态大模型在细粒度视觉理解方面存在不足,难以区分相似情绪,你觉得可以通过哪些技术手段或数据增强方法来改善这一问题?

从数据角度看,标注的质量也很重要。与其简单地标注“恐惧”或“惊讶”,不如引入专家进行更细致的描述,比如“略带惊讶的恐惧”或“带有不确定的惊讶”。然后,利用这些更丰富的信息来训练模型,提升其细粒度识别能力。

问题:文章提到目前多模态大模型在细粒度视觉理解方面存在不足,难以区分相似情绪,你觉得可以通过哪些技术手段或数据增强方法来改善这一问题?

我觉得可以试试对比学习。让模型学习区分细微差别,比如把恐惧和惊讶的表情放在一起训练,告诉模型哪里不一样。数据增强方面,可以对表情图片做一些细微的扭曲或者遮挡,让模型更鲁棒。

问题:MME-Emotion 的实验结果表明,即使是先进的模型在情感智能方面仍有不足。你认为除了技术上的挑战,情感智能的发展还面临哪些伦理或社会方面的考量?

我觉得最大的问题是,我们是否应该赋予机器这种能力?人类的情感是复杂而微妙的,如果机器对情感的理解是片面的或者错误的,那它可能会做出错误的判断,甚至对人类造成伤害。所以,情感智能的发展需要非常谨慎。