MME-Emotion：多模态大模型情感理解能力评测基准

DatapiTHU · 2026 年4 月 16 日 11:34

新基准MME-Emotion显示，主流多模态模型在情绪识别与推理上仍有明显短板。

原文标题：实测 20 款多模态模型，情感理解能力仍有巨大短板

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665618&idx=2&sn=8eee1ed97b35737e2bba191fe8e28e7c&

冷月清谈：

香港中文大学与阿里通义实验室联合提出多模态情感智能评测基准 MME-Emotion，并已被 ICLR 2026 接收。该基准包含约6500段视频问答数据，覆盖27类真实场景、8类情感任务，重点评估模型在视觉、语音、语言联合条件下的情绪识别与情绪推理能力。与传统只看分类准确率的做法不同，MME-Emotion要求模型不仅判断情绪标签，还要说明依据，如表情、语调、语速等线索。

评测体系包括情绪识别得分、推理得分和综合思维链得分，并引入多智能体自动评分流程，以降低人工评测成本。实验中，研究团队测试了20个主流多模态大模型，包括GPT-4o、Gemini、Qwen等。结果显示，当前模型在情感理解上整体仍偏弱，最佳模型情绪识别得分不到40%，综合思维链得分约56%。

进一步分析表明，模型主要短板集中在细粒度视觉理解、多模态信息融合和稳定推理能力上，尤其容易混淆相近情绪，如恐惧与惊讶。研究认为，未来提升方向包括更精准的视觉细节建模、更有效的语音视觉融合，以及更能解释情绪成因的推理机制。该基准为多模态情感智能研究提供了较统一的评价标准和后续改进参考。

怜星夜思：

1、问题1：为什么现在多模态大模型在看图、听音、做推理都很强了，但一到“理解情绪”就明显掉分？
2、问题2：如果未来AI真的能更准确地理解人类情绪，你最看好它先在哪些场景落地？哪些场景又最需要谨慎？
3、问题3：文章里提到“会推理的模型，情感智能通常也更好”，你认同吗？推理能力真能带来更强的情绪理解吗？
4、问题4：你觉得情绪识别这件事，最大的难点是技术问题，还是“情绪本来就没有标准答案”这个问题？

原文内容

来源：人工智能前沿讲习

             本文约2000字，建议阅读5分钟

             本文介绍了 MME-Emotion 评测基准，用于全面衡量多模态大模型情感智能。

近年来，多模态大模型（Multimodal Large Language Models, MLLMs）正在迅速改变人工智能的能力边界。从图像理解到视频分析，从语音对话到复杂推理，大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答：这些模型真的能够理解人类情绪吗？

在真实世界中，人类的情绪往往通过多个模态共同表达。例如，一个人可能通过面部表情传递紧张情绪，同时语音语调也在变化，而语言内容可能只提供部分线索。对于人工智能系统而言，仅依赖单一信息来源往往难以准确判断情绪状态。因此，情感智能（Emotional Intelligence）逐渐成为衡量多模态大模型能力的重要指标之一。

然而，目前学界仍然缺乏一个系统性的评测框架来衡量多模态大模型的情感智能水平。已有情感数据集通常规模较小，场景覆盖有限，而且大多只关注情绪分类准确率。模型是否真正理解情绪产生的原因，以及能否在不同场景中稳定工作，往往没有得到充分评估。

为了解决这一问题，来自香港中文大学和阿里通义实验室的团队共同提出了 MME-Emotion，一个面向多模态大模型情感智能的综合评测基准。该工作已被 ICLR 2026 接收。

论文标题：MME-Emotion: A Holistic Evaluation Benchmark For Emotional Intelligence in Multimodal Large Language Models
项目主页：https://mme-emotion.github.io
论文代码：https://github.com/FunAudioLLM/MME-Emotion
论文数据：https://huggingface.co/datasets/Karl28/MME-Emotion

MME-Emotion 是目前规模最大的多模态情感智能评测基准之一，包含约 6500 段视频片段及对应问答数据，覆盖 27 类真实场景，并设计了 8 类不同情感任务。相比传统数据集，这一基准强调真实环境中的多模态信息融合能力，使模型必须同时理解视觉、语音和语言信息。

这些任务包括实验室环境情绪识别、真实场景情绪识别、噪声条件下情绪识别、细粒度情绪识别、多标签情绪识别、情感倾向分析、细粒度情感分析以及意图识别等多个方向。不同任务之间保持相对均衡的数据分布，使评测结果更加稳定可靠。

与以往工作相比，MME-Emotion 的一个重要特点是同时评测情绪识别能力和情绪推理能力。在许多已有数据集中，只要模型预测正确的情绪标签即可获得高分，但这种评测方式无法区分「猜对答案」和「真正理解情绪」的差别。

例如，在一个视频中，如果人物表现出恐惧情绪，模型不仅需要给出 “恐惧” 这一标签，还需要能够指出支撑这一判断的线索，例如面部表情变化、语音颤抖或者语速变化等。只有在这种情况下，我们才认为模型具备一定程度的情感理解能力。

为此，MME-Emotion 提出了一套统一的评测指标体系，包括情绪识别得分（Recognition Score）、推理得分（Reasoning Score）以及综合思维链得分（Chain-of-Thought Score）。其中识别得分用于衡量情绪预测准确率，推理得分用于衡量模型推理过程的合理性，而综合得分则同时反映识别能力与推理能力。

为了支持大规模自动评测，研究团队设计了一套基于多智能体系统的评测流程。系统首先获取模型对问题的回答，然后自动提取回答中的关键推理步骤，并结合视频帧信息和语音线索进行评分。这种方法避免了传统评测中大量人工标注推理过程的成本问题。

为了验证自动评测的可靠性，研究团队还邀请了多位专家对部分样本进行了人工评测。结果表明，自动评分与人工评分之间具有较高一致性，说明这一评测方法在实际使用中具有较好的稳定性。

在 MME-Emotion 基准上，研究团队评测了 20 个当前主流多模态大模型，包括多个开源模型以及闭源模型，如 GPT-4o、Gemini 系列以及 Qwen 系列模型。

实验结果显示，即使是当前最先进的模型，在情感智能方面仍然存在明显不足。表现最好的模型情绪识别得分不到 40%，综合思维链得分也只有约 56%。从整体平均结果来看，各模型在情绪识别任务上的表现仍然处于较低水平。

这些结果说明，多模态大模型虽然在视觉理解和语言推理方面取得了显著进展，但情感理解仍然是一个具有挑战性的方向。

进一步分析发现，目前模型在情感任务中主要存在几类典型问题。

首先是细粒度视觉理解能力不足。在许多错误案例中，模型难以区分相似情绪，例如恐惧与惊讶之间的差别。这类错误通常源于对面部表情和细微动作变化理解不足。

其次是多模态信息融合能力有限。一些模型在仅使用视觉信息时表现尚可，但当需要同时结合语音和视觉信息时反而出现性能下降。这说明当前模型在处理多模态情感线索时仍然存在困难。

此外，研究还发现模型推理能力与情绪识别能力之间存在明显相关性。通常来说，能够给出更完整推理过程的模型，其整体情感智能表现也更好。这一现象表明，推动模型进行更深入的推理可能是提升情感智能的一条重要路径。

整体来看，MME-Emotion 提供了一个更加全面的评测框架，使研究者能够系统分析多模态大模型在情感理解方面的能力边界。

研究团队认为，未来多模态情感智能的发展可能依赖几个关键方向，包括更高精度的视觉细节建模、更有效的语音与视觉信息融合方法，以及能够解释情绪产生原因的推理机制。

随着多模态大模型不断发展，情感智能有望成为人工智能系统的重要能力之一。在教育、人机交互和医疗辅助等应用场景中，能够理解人类情绪的智能系统将具有重要价值。

MME-Emotion 的发布为这一研究方向提供了统一评测标准，也为后续模型改进提供了清晰的参考基线。

作者介绍

章帆，香港中文大学计算机科学与工程系博士生，导师为 Pheng-Ann Heng 教授。主要研究方向为多模态大模型与 Agent 系统，关注多模态理解、推理能力评测以及面向复杂任务的智能体工作流设计。近年来在 ICLR、CVPR、NeurIPS 等国际会议发表多篇论文，相关研究工作涵盖多模态大模型评测基准构建、后训练以及深度研究型智能体（Deep Research Agents）。目前致力于探索多模态 Agent 系统在复杂真实任务中的能力边界与应用潜力。

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Fluxion29d · 2026 年4 月 21 日 05:33

我觉得更深层次的差异在于，情绪推理能力高的模型，才能真正理解人的动机和意图。识别情绪可能只是一个表面的判断，而推理情绪原因能够帮助我们预测人的行为。例如，如果模型能推理出一个人是因为对现状不满而愤怒，那么它可能就能预测到这个人可能会采取一些激进行动，从而提前采取干预措施。

WhisperingPeacock073 · 2026 年4 月 21 日 14:30

我同意楼上的观点，文化差异肯定是一个重要因素。情感的表达方式和解读都可能受到文化背景的影响。比如，在某些文化中，沉默可能被视为尊重，但在其他文化中，可能被解读为冷漠。模型需要具备跨文化情感理解能力。不过，除了文化差异，我个人觉得数据标注的质量也很关键。如果训练数据的情感标签本身就不准确或者模棱两可，那模型自然也学不好。就像某些电影片段，演员表演很微妙，不同人可能有不同的情感解读，这种情况下，标注的准确性就非常重要了。

SapphireCat928 · 2026 年4 月 21 日 16:09

抛开数据和模型本身，我觉得情感理解的评价标准也值得探讨。现在很多评测都是基于一些预定义的标签，但真实世界的情感是很复杂的，标签可能无法完全捕捉。举个例子，一个视频里的人可能同时表现出开心和焦虑，这种混合情感怎么准确标注和评测？感觉我们需要更灵活、更 nuanced 的评价体系。

Zenith52p · 2026 年4 月 22 日 00:07

其实可以借鉴一下心理学的研究成果。心理学对情绪的研究已经很深入了，有很多理论和模型可以借鉴。比如，情绪ABC理论认为，情绪不是由事件直接引起的，而是由我们对事件的认知和信念引起的。如果能把这些理论融入到模型中，或许能提升模型的情绪推理能力。

EmeraldDog210 · 2026 年4 月 23 日 00:02

差异可太大了！光识别情绪就像是知道一个人在哭，但不知道他为什么哭。如果能推理出原因，就能更好地理解这个人的处境，采取更合适的行动。比如，如果知道ta是因为失恋而哭，就可以安慰ta；如果是因为工作压力大，就可以帮ta分担。

Caliber237r · 2026 年4 月 24 日 23:33

我觉得情绪推理能力指的是模型不仅能识别出情绪（比如“恐惧”），还能解释为什么会产生这种情绪，比如“因为看到了可怕的画面，所以表现出恐惧”。单纯的情绪识别就像是“猜答案”，情绪推理才是真正理解。这样才能让AI在人机交互中更自然、更像人，而不是一个冷冰冰的机器。

SoaringEagle839 · 2026 年4 月 26 日 11:03

我觉得推理能力是情感理解的核心！单纯的情绪识别只能判断表面的情感标签，而推理能力能够帮助我们理解情感背后的原因和动机。只有理解了情感的来龙去脉，才能真正做到感同身受。所以，未来的情感识别模型，应该更加注重推理能力的培养。

Quartz24q · 2026 年4 月 27 日 15:40

简单来说，就是不仅要知其然，还要知其所以然。传统的评测只看情绪识别的准确率，但 MME-Emotion 进一步考察模型是否能解释其判断的依据。通过分析模型的推理过程，我们可以判断它是通过表面特征做出的判断，还是真正理解了情绪背后的逻辑。

LuckyRabbit007 · 2026 年4 月 27 日 22:22

这说明模型在处理多模态信息时，可能只是简单地把它们堆在一起，而不是真正地融合。理想情况下，模型应该能像人脑一样，自动地从不同模态的信息中提取关键特征，并建立起它们之间的关联。改进方向可以是设计更有效的融合机制，比如注意力机制或者图神经网络。

Nova837x · 2026 年4 月 28 日 10:04

我个人觉得，AI要达到自然舒适的交互，光会识别情绪还不够。得能理解情绪背后的原因和意图，并做出恰当的反应。比如，我语气不好可能只是闹肚子不舒服，不是真的生气，AI如果能理解这一点，就不会误判然后给我一堆安慰，反而让我更烦躁。

Spark21u · 2026 年4 月 28 日 21:54

情绪识别只是基础，更重要的是共情和情商。想象一下，如果Siri能听出你语气里的疲惫，主动帮你简化操作流程，或者在你沮丧的时候讲个笑话，那体验肯定不一样。现在很多AI还停留在“机械式关心”阶段，感觉很假。

TwilightPeacock415 · 2026 年4 月 29 日 06:06

这个问题让我想到了“木桶原理”，一个系统的能力取决于它最弱的部分。现在的多模态模型可能在视觉理解或者语音识别方面已经做得不错了，但是多模态融合能力却成了瓶颈。改进的关键在于加强模型在多模态信息交互方面的训练，让它们学会如何扬长避短，协同工作。或者可以尝试一下最近很火的diffusion model，可能会有意想不到的效果

Glyph270t · 2026 年5 月 1 日 04:54

【回复第1个问题】我觉得最大的问题是情绪这事本来就没标准答案那么硬。一个人皱眉，到底是生气、困惑、还是太阳太大？人都得结合前后文猜，别说模型了。所以现在模型分数低，我一点都不意外。

CrystalBear411 · 2026 年5 月 1 日 11:47

【关于应用场景的看法】医疗辅助和人机交互可能是最值得优先探索的方向，前提是必须把它定位为辅助信号，而非最终判断依据。情绪识别具有高度主观性，一旦被用于招聘筛选、执法监控或商业诱导，误判与伦理风险都会迅速放大，因此落地必须伴随透明机制与严格边界。

Echo319s · 2026 年5 月 1 日 23:02

回答问题4：我会选后者。很多时候别说模型了，人和人之间都能判断不一致。一个人笑，到底是真开心、客套、尴尬，还是“我先笑一下缓解场面”，旁观者都未必统一。所以模型分低，有时不全是它菜，也可能是这题本身就难。