ICLR'26:MMSU基准揭示语音大模型理解力短板,感知能力是关键

ICLR'26:MMSU评测揭示语音大模型理解力短板,感知能力成瓶颈。模型在音系和细粒度声学特征上存在短板,导致推理能力受限。语音理解需同时解析语言内容、声音组织与表达风格。

原文标题:大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

原文作者:数据派THU

冷月清谈:

MMSU评测基准揭示当前语音大模型在口语理解方面存在严重缺陷,尤其在感知能力上。该基准从语言学角度出发,系统评估模型在语调、停顿、情绪等要素上的表现,发现模型未能准确捕捉关键声学线索,导致推理失效。MMSU通过47个子任务、5000道选择题,全面评估模型在感知和推理两个层面的能力,并细致划分语言学和副语言学维度,揭示了现有模型在音系等方面的系统性短板。实验结果表明,语音理解不仅涉及语义内容,还包括声音组织和表达风格,强调了提升模型基础感知能力的重要性,为改进语音大模型的理解能力提供了方向。

怜星夜思:

1、MMSU评测中提到,当前语音大模型在基础感知能力上存在短板,尤其是在音系相关能力上。那么,这种感知能力上的不足,会对大模型的实际应用产生哪些具体的影响?
2、MMSU评测基准特别强调了口语中语调、重音等“how it was said”的重要性,相对于内容本身,你们觉得在日常交流中,表达方式对信息传递的影响有多大?
3、论文中提到,最好的模型在MMSU评测中只达到了60.68%的得分,远低于人类水平。你认为为了让语音大模型更接近人类的语音理解能力,未来有哪些可能的改进方向?

原文内容

图片
来源:新智元
本文约3000字,建议阅读5分钟
ICLR 2026:MMSU评测揭示语音大模型存在严重理解缺陷,最佳模型仅60.7%得分,远低于人类89.7%。它通过语言学框架,系统评估语音中的语调、停顿、情绪等关键要素,指出模型未能真正「听懂」语音,导致推理失效。这一发现强调语音理解需同时处理感知与语用信息,为模型改进提供明确方向。



随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。

然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?

在自然口语交流中,理解并不等同于文本转写。语言意义的建构,既依赖「说了什么」(what was said),也依赖「怎么说」(how it was said),更依赖说话人在特定语境下「真正想表达什么」(what was truly meant)。语调、重音、停顿、语速变化、情绪表达与语用等现象,往往决定了说话人的真实含义。

在这一背景下,研究团队提出了MMSU(Massive Multi-task Spoken Language Understanding and Reasoning Benchmark),一个覆盖47个子任务、5,000道选择题的综合性语音理解评测基准,旨在从语言学结构出发,系统刻画SpeechLLMs在多层语言现象下的感知与推理能力,并为语音理解能力建立可分析、可诊断、可比较的统一坐标体系。

论文链接:https://arxiv.org/pdf/2506.04779 

数据链接:https://huggingface.co/datasets/ddwang2000/MMSU 

项目主页:https://github.com/dingdongwang/MMSU 

重新审视语音理解的评测边界

与其问「模型准确率多少」,不如先问:我们是否测对了能力?

MMSU指出,当前语音评测存在三类关键缺口:

  • 覆盖不足:大量真实口语现象尚未被系统纳入评估,包括自发性不流畅、反讽、非语言声音(如咳嗽、抽泣、笑声)、重音转移、停顿结构、语调变化、拉长音以及code-switch等。这些看似细微的声学特征,往往承载着决定性语用信息,是推断「话外之音」的关键线索。

  • 数据真实性有限:许多现有benchmark依赖TTS合成语音,虽然便于控制变量,却难以还原真实交流中自然的表达波动与风格差异。

  • 缺乏语言学理论支撑语音理解的能力边界,根植于语言学理论本身。音系决定声音如何组织,语义决定意义如何编码,修辞与语用决定表达如何产生隐含含义,副语言信号则参与意义的调节与强化。然而,现有基准多以任务现象为单位,缺乏以语言学为根源的系统划分。MMSU以语言学理论为基础构建评测框架,在理论层面定义语音理解的能力结构。


这些问题并非独立存在,而是共同导致评测结果与真实理解能力之间的结构性偏差。

从「听见声音」到「理解语言」 语言学驱动的语音理解能力体系标题

在数据构建阶段,MMSU 由语言学专家与标注人员参与设计与审核。所有题目均经过多轮严格筛选与一致性校验,确保难度设置合理、整体评测质量可靠。不同于仅通过音频收集构建数据的benchmark,MMSU 结合了专业录音,使关键语音现象(如重音转移、语调变化、停顿结构等)得到清晰呈现与可控对比,从而提升评测的可靠性。

MMSU 的核心优势体现在三个方面:

第一,在口语声学现象覆盖上,MMSU 系统纳入重音转移、语调变化、停顿结构、拉长音、不流畅表达、反讽、非语言声音等多类真实交流现象,覆盖范围在现有语音理解评测中最为全面。

第二,数据构建中采用大量真实音频样本,并结合专业录音,确保语音表达自然且具有可评估性。

第三,任务体系基于语言学理论框架进行原创性任务设计,将声学线索系统融入真实人际交流语境,形成面向真实交流场景的综合考核机制。

MMSU包含5000道选择题,47个子任务,其中24个感知任务,23个推理任务。任务覆盖范围从底层声学感知到高阶语用推断。

MMSU 将语音理解拆解为三个层级,形成一个结构化能力框架。

第一层:Perception vs Reasoning

感知Perception:聚焦基础声学与语音特征识别,不依赖复杂推理。

推理Reasoning:在感知基础上整合语义与语境信息,完成多步推断。

第二层:Linguistics vs Paralinguistics

语言学Linguistics:涉及语言系统本身的结构与意义,包括语义、句法、音系结构与修辞现象。这里关注的是语言单位如何组织,以及它们如何编码意义。

副语言学Paralinguistics:关注语言之外但影响理解的声学与表达特征,例如音高、音量、语速、情绪表达、停顿模式、非语言声音等。这些线索并不改变词汇内容,却往往改变话语意图与语用效果。

第三层:理论分支

在前两层划分基础上,MMSU 进一步依据语言学理论进行系统展开。在语言维度上,任务细分为语义Semantics与音系Phonology两个方向:语义关注意义理解与语境推断,音系关注语调、韵律与音位差异等声音结构。

在副语言维度上,任务区分为说话人特征Speaker Traits与表达风格Speaking Style,前者涉及音色与身份属性,后者涵盖音高、语速、情绪等动态线索。具体而言,评测涵盖双关语推理、语调推理、重音推理、辅音与元音感知、爆破音识别,讽刺检测、语速比较、音色识别,情绪语境推断等多类任务,系统覆盖真实口语交流中的关键能力。

通过这一层展开,MMSU在理论层面将语音理解拆解为语义内容、声音结构、说话人属性与表达风格四个核心分支,使「说了什么」「怎么说」以及「真正想表达什么」能够在统一框架中被精细刻画与系统评估。

实验结果 模型离「真正听懂」还有多远?

研究团队对22个先进SpeechLLMs与OmniLLMs进行了系统评测。人类参考水平为89.72%,最佳模型(Gemini-1.5-Pro)为60.68%,差距接近30个百分点。

一个值得关注的反直觉现象随之显现:在人类表现中,推理任务通常更具挑战;而在模型表现中,基础感知反而成为瓶颈,尤其是在音系相关能力上,模型存在系统性短板。

这意味着,许多所谓的「推理错误」可能并非源于模型缺乏逻辑能力,而是在输入阶段未能准确捕捉关键声学线索,换言之,模型的「思考能力」或许被高估,而「听清能力」却被低估。

结语 从「能听」到「听懂」

语音理解的难点,从来不在于识别字词,而在于理解表达结构。

意义并非仅由语义内容决定,还由声音形式与表达方式共同塑造。语调、重音、停顿、语速与情绪变化,往往决定了真实意图。忽略这些声学线索,模型就无法完成真正的语用推断。

实验结果进一步表明,推理能力的上限取决于感知能力的下限。当模型在音系与细粒度声学特征上存在系统性短板时,再强的语言建模能力也难以弥补输入层的缺失。

因此,语音理解并不是单一语义问题,而是一个多层结构问题。它要求模型同时解析语言内容、声音组织与表达风格,并在此基础上整合语境完成推断。

如果缺乏系统性的能力坐标,我们无法判断模型究竟听清了什么、理解了什么,又推理到了何种程度。MMSU 所尝试构建的,正是这样一套结构化标尺。在多模态模型走向真实交互的过程中,语音理解仍是一个尚未被充分攻克的核心问题。

参考资料:https://arxiv.org/abs/2506.04779
编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


在实际应用中,理解语音中的情绪和讽刺意味具有重要的商业和社会价值。例如,在客户服务领域,识别客户的情绪可以帮助客服代表更好地处理客户投诉,提高客户满意度。在舆情监测领域,识别网络上的讽刺言论可以帮助政府和企业更准确地了解公众的意见和态度。 然而,目前的大模型在情绪识别和讽刺检测方面仍存在一定的局限性。主要挑战包括: 1. 数据稀缺:标注有情绪和讽刺意味的语音数据相对较少,这限制了模型的训练效果。 2. 情境依赖:情绪和讽刺往往与特定的语境相关,模型需要具备一定的常识知识和推理能力才能准确理解。 3. 表达多样性:人类表达情绪和讽刺的方式多种多样,模型需要具备更强的泛化能力才能适应不同的表达方式。 未来的研究方向可以包括:(1) 构建更大规模、更多样化的情绪和讽刺语音数据集;(2) 探索基于知识图谱和常识推理的方法,提高模型对语境的理解能力;(3) 开发更有效的多模态融合方法,结合语音、文本和视觉信息,提高情绪和讽刺识别的准确率。

我觉得探索更复杂的模型架构也不失为一种方法。虽然现在的模型还存在很多问题,但它们也展现出了巨大的潜力。也许未来会出现一种全新的模型架构,能够彻底改变我们对语音理解的认知。就像AlphaGo的出现,让我们看到了AI在某些方面超越人类的可能性。当然,这需要我们不断尝试、不断创新。

我更倾向于放慢脚步,注重基础研究。现在的模型越来越大,越来越复杂,但很多时候都是在堆砌参数,缺乏对语音理解本质的深入理解。就像盖房子,如果地基没打好,上面盖再多层也可能变成危楼。我们应该花更多的时间去研究语音的底层结构、人类的认知机制,才能真正提升模型的理解能力。

从技术角度来说,可以尝试在模型中加入专门处理表达风格的模块。这个模块可以分析语音的音高、语速、音量等参数,然后将这些信息融入到理解过程中。这就像给模型配备了一个情感分析器,让它能更好地捕捉说话人的情绪和意图。我觉得加入Transformer应该可能解决,毕竟现在啥都能Transformer一把。

我觉得可以尝试引入更多语言学知识到模型中,比如直接把音系学的规则嵌入到模型架构里。另外,也可以考虑使用更先进的声学模型,提高模型对细微声学特征的捕捉能力。当然,更重要的是要扩大训练数据的规模和多样性,让模型见多识广,才能更好地应对真实世界的口语环境。

MMSU评测里说的音系短板,你可以理解为模型对语音里声调、轻重音、停顿这些细节把握不够。这些看似不起眼的元素,其实直接影响了我们理解说话人的真实意图。你想想,一句话用升调问出来,和用降调肯定意思不一样吧?音系能力差,就好像听歌跑调一样,抓不住重点,自然就get不到说话人的真实意思啦。

我觉得最紧迫的是解决安全问题。如果有人利用语音漏洞来欺骗语音助手,或者操控智能设备,那后果不堪设想。所以,我们需要加强对语音输入的安全性检测,防止恶意攻击和欺诈行为。

与其说是完全依赖前端,不如说是“软硬结合”。前端声学模型的提升固然重要,但别忘了,人类的听觉系统也会根据上下文进行脑补和修正。所以,模型架构的设计也应该考虑到容错性和纠错能力,让模型能够更好地处理不准确的语音输入。

理解反讽啊,那可太难了!我觉得主要靠的是语境和经验。比如,对方的表情、语气,以及我们对他的了解程度。大模型要学习这个,感觉需要一个巨大的“常识库”和“情景模拟器”,让它能够像人一样去感受和判断。

必须加入价值观和伦理方面的考量。语音大模型如果被用于恶意目的,比如制造虚假新闻、冒充他人身份等,后果不堪设想。未来的评测应该关注模型是否会生成有害信息,是否会侵犯用户隐私,是否会加剧社会不公等等。技术发展的同时,也要守住伦理底线。

学院派一点的看法,我们需要构建更全面的语音数据集,覆盖各种口音、语速、情绪和语境。更重要的是,要引入语言学特征工程,比如提取音高、时长、能量等声学特征,并将其与文本信息融合,帮助模型更好地理解语音信号,而不仅仅是依赖端到端的训练。

除了文化差异,我觉得评测基准还应该考虑到真实场景的复杂性。在实际应用中,语音大模型往往需要处理各种各样的噪音、干扰和口音。如果评测基准只关注清晰、标准的语音,那就无法真实反映模型在实际应用中的表现。得模拟各种真实场景,比如嘈杂的街道、回声很大的房间等等。