上海交大发布口语对话情感大模型「交交」,媲美GPT-4o!

上海交大发布口语对话情感大模型「交交」,支持多人对话、多语种、情感理解,性能媲美GPT-4o,学术界自研力量不容小觑!

原文标题:「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!

原文作者:机器之心

冷月清谈:

上海交通大学推出了全球首个纯学术界自研的支持多人实时口语对话的语音情感大模型 ——“交交”。它具备多人对话与身份辨识、多语种和方言感知、角色切换与实时模仿、情感实时理解和表达等多项能力。在技术上,“交交”采用了端到端语音对话、创新的跨模态对齐机制、多人对话建模、思维链技术等。在性能测试中,“交交”在VoiceBench英文基准测试中获得了79.05的平均分,仅次于GPT-4o,并在多语言测试和真机中文实测中表现优异。该模型由上海交通大学听觉认知与计算声学实验室打造,团队在语音、音频、音乐及自然声信号处理等领域积累了丰富的技术经验。“交交”的发布,展示了学术界在大模型时代的创新潜力,并诚邀用户参与内测体验。

怜星夜思:

1、「交交」在多语言和方言处理方面表现出色,这对于实际应用有哪些重要意义?在哪些场景下会特别有用?
2、文章提到「交交」具备情感理解和表达能力,并且可以模仿用户声音,你觉得这种技术在实际应用中会带来哪些伦理问题?我们应该如何防范这些风险?
3、「交交」在基准测试中表现出色,但实际应用场景可能更加复杂。你认为「交交」在哪些方面还需要进一步提升,才能更好地满足用户的需求?

原文内容


智能语音交互领域,学术研究也能如此酷炫。全球首个纯学术界自研的支持多人实时口语对话的语音情感大模型 ——“交交”,正式推出!


“交交” 由上海交通大学听觉认知与计算声学实验室倾力打造,它不仅是一个智能语音助手,更是一个多说话人、多语言、多角色、多情感的全能对话伙伴。


核心亮点


上海交通大学此次推出的 “交交” 口语对话情感大模型,除了在对话上下文内容上的强大理解和知识问答能力,还同时具备多人对话与身份辨识,多语种和方言感知,角色切换与实时模仿,情感实时理解和表达等多项能力。这在目前已知发布的语音对话大模型中,尚属首次。


1. 多人对话,无缝切换


无论是家庭聚会、团队会议,还是朋友闲聊,“交交” 都能同时与多位用户进行自然流畅的对话。它能精准识别每个人身份,各自的发言内容,并给出个性化的回应。还能准确地进行总结,让对话更加生动高效。


视频 1:上海交通大学校庆主题对话示例


视频 2:会议场景 5 人多轮对话示例


2. 语通五洲,方言无碍


“交交” 现已支持汉语、英语、日语和法语四大主流语言,让您无论身处何地都能用最熟悉的语言与模型进行互动。不仅如此,“交交” 具备跨语言回复能力,无论提问和回复采用同一种语言还是不同语言,都能轻松打破沟通壁垒,实现无缝交流。


针对中文,“交交” 进行了特殊优化,拥有强大的中文方言识别与理解能力。不论是四川话、山东话,还是其他地方特色方言,均可精准捕捉语意,让对话更加亲切自然,贴近您的生活语言习惯。


视频 3:中英日法对话示例


视频 4:四川话、山东话对话示例


3. 角色百变,情感丰富


“交交” 不仅能回答问题,还能根据对话内容和场景理解用户的情绪,同时生成富有情感的回应。无论是幽默调侃、暖心安慰,还是专业建议,它都能恰到好处地表达。“交交” 不仅能模仿多个角色的声音,还能实时学习并模仿用户本人的声音。无论是角色扮演、故事讲述,还是个性化互动,它都能轻松驾驭。


视频 5:音色实时克隆与角色扮演示例


视频 6:情感理解与表达示例


视频 7:丰富情感表达示例


4. 知识问答,无所不知


“交交” 不仅是一个对话伙伴,更是一个知识宝库。无论是古诗词背诵、科学原理讲解,还是文学名著解读,它都能信手拈来。结合超长上下文理解能力,无论是小学生的学习辅导,还是高中生的知识扩展,甚至是研究生的科研探索,交交都能满足您的求知欲。


视频 8:常见知识问答示例


视频 9:唐代历史主题多轮问答示例


技术突破


图 1: “交交” 口语对话情感大模型技术框架


1. 端到端语音对话


采用鲁棒的音频编码器,具有良好的抗噪能力和多人理解能力的同时,将音频输入流式编码器得到离散序列,并对齐到文本序列空间。无需大规模高质量数据微调,即可最大限度保持和利用文本大模型的基础泛化能力做到实时知识问答。


2. 多语言理解与生成


基于创新的跨模态对齐机制,将多语言语音信号与对应文本在特征空间实现精准映射,同时通过隐式表征学习保留语言特异性信息,结合深度语言模型的上下文建模能力,实现跨语言场景下的无缝切换与高效语义理解。


3. 多人对话建模


我们通过构造多人对话数据,模拟家庭聚会、团队会议等真实场景,增强模型的对话处理能力。利用端到端模型融合上下文信息,生成个性化的响应和总结,实现自然且连贯的多方互动。


4. 情感理解与表达


基于上下文信息,利用思维链技术生成符合对话场景的情感全局表征,用于生动的情感语音回复生成,提升对话交流的真实感。


5. 实时音色克隆与切换


提供高保真声音模仿技术,通过思维链技术进行控制信号推理,从而支持多角色语音扮演风格以及与用户自身声音之间的实时无感切换。


6. 灵活拓展


强大的对齐策略,支持文本与音频模态的任意方式拼接融合,不仅显著提升了多模态建模的灵活性,还为集成大规模文本大模型中的多种增强机制(如联网搜索、RAG 检索增强生成等)提供了统一且可扩展的接口。


基准测试


在语音对话大模型的赛道上,性能指标是衡量模型实力的关键。在相关测试中,“交交” 展现出卓越的表现,全面对标业内主流模型,部分指标甚至已实现逼近甚至超越,充分验证了其在语音理解与交互领域的强大潜力。


1. 通用性能测试:音频理解 + LLM 能力双重突破



随着大模型时代的到来,语音理解标准测试集 VoiceBench 为我们提供了一个全面评估语音对话大模型性能的重要平台。基于 VoiceBench 英文基准测试,我们对多款主流语音模型进行了全方位的评测,涵盖开放域问答、多选 QA、指令遵循等多个关键任务。


在整体评测中,“交交” 获得了 79.05 的平均分,仅次于 OpenAI 发布的 GPT-4o 模型。与业内领先的 GPT-4o-Audio 相比,我们的模型差距缩小到仅 8%,实现了从传统模式向端到端语音交互的重大突破。


针对音频输入的特殊性,我们优化算法,有效克服语义模糊问题,相较于其他端到端语音大模型,“交交” 显著提升复杂任务表现(如指令跟随,知识问答)等。使用同规模参数量与 Qwen2.5-7B 文本指令模型的差距大幅缩小,标志着我们在端到端语音交互理解模块达到和文本相近的能力!


评测结果显示,在通用知识、指令跟随、复杂问题理解、人工智能安全层面,“交交” 都展现了极强的竞争力,不仅全面对标当前主流 SOTA 模型,还在多个关键任务上实现超越.


2. 多语言测试:中英日法全面覆盖



在 VoiceBench 的中英日法基准测试中,我们的模型展现了极强的多语言处理能力,尤其是在中文、日文、法文上的表现均显著优于 Qwen2-Audio。我们的模型不仅支持多语言,还在不同语言环境下保持了稳定的高性能表现,真正实现了 "多语言,零差异"!


3. 真机中文实测:无惧设备场景难题,多领域表现优异



为了更全面地评估模型在实际场景中的表现,我们用丰富的设备录制了中文真实数据集,涵盖健康、人际关系、小学数学、生活常识、科学常识等多个领域知识的单轮问答,确保数据的复杂性、多样性。测试结果表明,我们的模型不仅在通用任务上表现优异,还在垂直领域展现了强大的专业能力。


4. 语义理解基准测试:衡量语音理解的基石



我们对 “交交” 在中英文语音识别、多语种语音识别(英语、汉语、法语、日语)及中英互译任务上的表现进行了全面评估,并与多款业界领先模型进行了对比,包括 Whisper-large-v3、Qwen2.5-Omni 与 Qwen2-Audio。


4.1 语音识别任务


  • 在英文(Librispeech)、中文(WenetSpeech)以及中英日法多语种(CommonVoice)的测试集中,“交交” 整体性能优异,在英文和多语种识别中表现尤为突出,均已达到和目前 SOTA 相近的性能。


  • 尤其在 CommonVoice 测试集中的多语言场景下,错误率显著低于 Whisper 和 Qwen 系列模型,展现出更强的语音理解与跨语言泛化能力。


4.2 中英互译任务


  • 在中→英、英→中方向的语音翻译任务中,“交交” BLEU 值领先,尤其是对于英翻中,优于 Qwen2 系列模型,显示出良好的语义把握和翻译一致性。


“交交” 在多语言理解与翻译任务中表现出色,彰显了我们在传统语音理解任务上的出色实力。


5. 延迟表现对比 


在语音对话大模型的实际应用中,对话延迟是影响用户体验的关键因素之一。为了验证我们的模型在真实场景下的表现,我们使用同一款手机,在同一公用网络环境下,对我们的模型与 GPT-4o、通义千问、喜马拉雅、阶跃星辰等主流 App 的最新版本进行了延迟测试。测试结果显示,我们的模型在延迟表现上展现了显著的竞争力。


视频 10:语音对话大模型回复延迟测试实录


图 2:语音对话大模型回复延迟对比图


团队介绍


“交交” 的研发团队来自上海交通大学计算机学院听觉认知与计算声学实验室(SJTU Auditory Cognition and Computational Acoustics Lab,AudioCC Lab),该实验室由语音对话和听觉处理领域知名学者钱彦旻教授领导,专注于完整的听觉人工智能与计算声学领域的前沿研究。


团队集结了一支由青年教师、博士生、硕士生、本科生及专职科研人员等组成的近 40 人科研团队,在语音、音频、音乐及自然声信号处理等领域积累了丰富的技术经验。实验室依托国家重点项目及企业合作支持,拥有数百块先进 GPU 计算资源,致力于解决产业级技术难题。


近年来,团队在国际顶级期刊和会议上发表了数百项学术成果,并在多项国际评测中斩获冠军。团队成员全面发展,毕业生均进入国内外顶级企业和研究机构,持续推动人工智能技术的创新与应用。


“交交” 项目团队合影,从左起:孙海洋,张乐莹,乐辰阳,钱彦旻,龚勋,李晨达,韩冰,王巍。


“交交” 项目团队合影,从左起:龚勋,乐辰阳,韩冰,李晨达,王巍,钱彦旻,孙海洋,张乐莹。


“交交” 项目团队合影,从左起:张乐莹,龚勋,王巍,李晨达,钱彦旻,韩冰,孙海洋,乐辰阳。


未来已来,对话无限可能!“交交” 不仅是语音助手,更是您的智能对话伙伴、知识导师和娱乐伙伴。它重新定义了人机交互的方式,让对话更加自然、智能、有趣。“交交” 的诞生,展现了在大模型时代,学术界在科技创新中依然具有无限的潜力。上海交通大学听觉认知与计算声学实验室用实力证明,学术研究不仅能推动科技进步,更能直接服务于社会,为人类生活带来便利与乐趣。


我们诚邀对前沿技术充满热情的您参与 “交交” 口语对话情感大模型的内测体验。由于资源有限,本次内测将面向部分用户优先开放。如果您希望提前体验并为我们提供宝贵的反馈,请访问 https://wj.sjtu.edu.cn/q/4FiP8hsB 填写内测申请表。您的参与将帮助我们不断优化,共同推动技术的进步!期待您的加入!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

情感理解和声音模仿确实是一把双刃剑,用好了能提升用户体验,用不好可能造成严重的伦理问题。我个人认为其中最大的风险在于身份欺骗和情感操控。

* 身份欺骗: 恶意用户可能利用声音模仿技术冒充他人,进行诈骗、诽谤等违法犯罪活动。例如,模拟亲友的声音进行借钱诈骗。
* 情感操控: AI可以通过分析用户的情绪,并生成带有倾向性的回复,从而影响用户的决策。这在商业推广、政治宣传等领域可能被滥用。

为了防范这些风险,我认为可以从以下几个方面入手:

1. 技术层面: 提高声音模仿的门槛,增加鉴别真伪的技术手段。例如,加入数字水印、声纹识别等技术。
2. 法律层面: 明确声音模仿的法律边界,加大对侵权行为的惩罚力度。
3. 伦理层面: 提高公众的防范意识,教育用户如何辨别虚假信息,避免上当受骗。
4. 平台层面: 平台方应加强对AI应用的监管,建立完善的举报机制,及时处理违规行为。

总之,技术的发展需要伦理的约束。只有在确保安全和负责任的前提下,才能让AI更好地服务于人类。

楼上说的很有道理,我补充一点。

除了身份欺骗和情感操控,我认为隐私泄露也是一个潜在的风险。AI在理解用户情感的过程中,可能会收集用户的个人信息,甚至包括心理状态、价值观等敏感信息。这些信息如果被滥用,可能会对用户的隐私造成侵犯。

因此,在开发和使用情感理解和声音模仿技术时,必须高度重视用户隐私保护。具体措施包括:

* 数据加密: 对用户数据进行加密存储和传输,防止泄露。
* 权限控制: 严格控制对用户数据的访问权限,防止滥用。
* 透明告知: 明确告知用户AI会收集哪些信息,以及如何使用这些信息。
* 用户选择: 允许用户自主选择是否开启情感理解和声音模仿功能。

此外,还应该建立完善的隐私保护监管机制,对违规行为进行严厉处罚。只有这样,才能赢得用户的信任,促使AI技术健康发展。

大家说的都太严肃了,我来抖个机灵。

我觉得以后可能会出现这样的场景:

* 情侣吵架: 男朋友吵不过女朋友,直接让AI模仿女朋友的声音道歉,保证哄得她心花怒放。(手动狗头)
* 职场摸鱼: 上班开会,不想发言,让AI模仿自己的声音提问,显得自己很认真。(手动狗头)
* 追星神器: 以后追星不用去现场了,直接让AI模仿偶像的声音和自己聊天,四舍五入等于和偶像谈恋爱了。(手动狗头)

当然,以上都是玩笑话。伦理问题确实需要重视,但也不要过于恐慌。技术本身是中立的,关键在于我们如何使用它。

虽然基准测试很重要,但实际应用场景确实复杂多变。我认为「交交」要更好地满足用户需求,需要在以下几个方面进一步提升:

1. 抗噪能力: 实际环境中噪音是不可避免的。要提高「交交」在嘈杂环境下的语音识别准确率,需要进一步优化抗噪算法。
2. 长时记忆: 目前的AI在处理长对话时,容易出现“失忆”的情况。要让「交交」更好地理解上下文,需要增强其长时记忆能力。
3. 知识更新: 知识是不断更新的。要让「交交」保持知识的实时性和准确性,需要建立一套完善的知识更新机制。
4. 个性化定制: 不同的用户有不同的需求。要让「交交」更好地服务用户,需要支持个性化定制,例如自定义角色、声音、回复风格等。
5. 安全性: AI的安全问题越来越受到重视。要确保「交交」不会被恶意利用,需要加强安全性设计,防止信息泄露、恶意攻击等。

总之,AI的发展是一个不断迭代的过程。只有不断改进和完善,才能更好地满足用户的需求。

「交交」的多语言和方言处理能力,我认为代表了AI更加人性化的发展方向。这意味着技术不再是冷冰冰的,而是能够理解和尊重不同文化和语言习惯的。

* 文化保护: 很多方言正面临消失的危险,通过AI技术记录和传承方言,能够为文化保护做出贡献。
* 无障碍交流: 对于一些不擅长普通话或英语的人来说,方言支持能够让他们更方便地使用智能设备,享受科技带来的便利。
* 国际交流: 多语言支持能够促进不同国家和地区之间的交流与合作,消除语言障碍。

不过,我也担心方言的过度使用可能会影响普通话的推广。如何在保护方言的同时,保证国家通用语言的普及,是一个需要思考的问题。

谢邀,利益相关,简单说两句。

「交交」的多语言和方言能力,其实是AI技术“本土化”的一个重要体现。意味着AI正在努力适应不同地区、不同文化的需求。

个人觉得,在以下场景会特别有用:

* 农村地区: 很多农村老人不会说普通话,智能设备如果能听懂方言,就能更好地服务他们。
* 少数民族地区: 保护和传承少数民族语言,是民族团结的重要组成部分。AI技术可以在这方面发挥积极作用。
* 特定行业: 比如戏曲、曲艺等行业,方言是其重要的艺术表现形式。AI可以辅助这些行业进行内容创作和传播。

当然,方言的识别和理解是一个很大的挑战,需要大量的数据和算法优化。希望「交交」能够在这方面继续努力,为更多人带来便利。

我觉得除了技术层面,用户体验也很重要。以下几个方面可能会影响用户的使用感受:

* 响应速度: 响应速度直接影响用户的耐心。要尽量缩短「交交」的响应时间,提升用户体验。
* 交互方式: 目前的交互方式主要依赖语音。未来可以尝试更丰富的交互方式,例如手势、表情等。
* 易用性: 要让「交交」更容易上手,降低用户的学习成本。可以提供详细的使用说明、友好的用户界面等。
* 情感温度: 虽然「交交」具备情感理解和表达能力,但有时候可能会显得过于机械。要让AI更具人情味,需要进一步优化情感模型。

此外,还应该关注弱势群体的使用需求。例如,为视障人士提供语音提示,为听障人士提供文字显示等。

这个问题很有意思!我觉得「交交」的多语言和方言支持,最大的意义在于真正打破了人机交互的语言壁垒。想象一下,以后和智能设备交流,可以直接用家乡话,多亲切!

具体来说,在这些场景下会特别有用:

* 旅游业: 游客可以用自己的母语和当地的智能设备交流,获取信息、预订服务,再也不用担心语言不通。
* 教育领域: 针对不同方言地区,可以开发更具针对性的语言学习工具,帮助孩子们更好地学习普通话或其他语言。
* 客服行业: 客服人员可以直接用方言和客户沟通,拉近距离,提高服务效率。
* 智能家居: 家里的老人可以直接用方言控制家电设备,更方便。

当然,要实现这些,还需要解决一些技术难题,比如方言的口音差异、语速快慢等等。但相信随着技术的不断发展,这些问题都会得到解决。

从一个普通用户的角度来说,我希望「交交」能够更“懂我”。

* 理解我的意图: 有时候我说的话可能不是很清楚,希望AI能够根据上下文,准确理解我的意图。
* 记住我的偏好: 记住我喜欢什么、不喜欢什么,下次就不用重复说明了。
* 提供个性化建议: 根据我的兴趣和需求,为我推荐合适的内容和服务。
* 像朋友一样聊天: 不只是回答问题,还能和我聊聊天,分享一些有趣的事情。

当然,要实现这些,需要AI具备更强的学习能力和推理能力。希望「交交」能够不断进步,成为我真正的智能伙伴。