实测昆仑万维Skyo对话助手：拟人化语音体验与实时反应能力

almosthuman2014 · 2024 年11 月 20 日 12:20

昆仑万维发布AI助手Skyo，具备快速响应和情感化互动能力，意在提升用户语音对话体验。

原文标题：实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943730&idx=1&sn=bb5350bbbad4b34c2ad73fe6faa4143c&

冷月清谈：

昆仑万维推出的实时语音对话助手Skyo，通过天工大模型4.0构建，力求在语音交互领域与GPT-4o等竞争对手一较高下。Skyo 提供快速响应、实时打断、情感化反应等功能，支持男女声切换，能应对复杂语境。文章详细介绍了Skyo在健康知识询问、情感安抚、诗歌朗诵等多方面的表现，指出其优越的用户交互体验，同时也提到存在的声音扭曲问题。Skyo的推出标志着昆仑万维在AI语音领域迈出的重要一步，未来将持续进化，扩展功能。

怜星夜思：

1、Skyo在情感识别上表现如何？是否能真正在沟通中理解用户的情感？
2、Skyo与其他语音助手相比，有哪些独特的优势？
3、你认为Skyo未来的功能扩展重点应该在哪里？

原文内容

机器之心原创

编辑：杜伟、大盘鸡

算起来，距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间，AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

不过，由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难，因此这个赛道的玩家并不多。可以看到，目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今，这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能，并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能，并于近日支持 iOS 用户与该语音助手交流。

与此同时，国内一些厂商陆续推出了类似的实时语音对话大模型及应用，比如智谱、科大讯飞等，填补了一些空白。如今，这个赛道又迎来了一个有实力的新玩家 —— 它就是昆仑万维开发的 Skyo 实时语音对话助手。

声音听起来还不错吧！Skyo 内置了非常清亮、爽朗的男声。

Skyo 基于背后的天工大模型 4.0 4o 版（Skywork 4o）打造。从名称上看，Skyo 中的「o」同样代表了 omni 的意思，并落在语音对话场景，直接对标了 GPT-4o。从定位和功能上看，作为一个智能语音互动产品，Skyo 具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。

可以说，用户想要在 AI 语音对话中体验的场景和功能，Skyo 基本上都能 hold，还针对当前 AI 语音助手存在的一些痛点进行了优化。

实时对话 AI

一要准、二要快

与传统语音助手的主要区别在于，基于大模型开发的 AI 实时语音对话助手能够应对更复杂的语境、执行更个性化的任务，并开始从「工具」的属性过渡到「人类伴侣」。

自 GPT-4o 之后，语音交互场景的 AI 具备了前所未有的感知能力，在更智能化、更多面手之外，不仅响应延迟明显降低了，还能准确读懂用户的情感语调，如兴奋、高兴或悲伤，并以逼真的方式模仿和回应。

不过，随着更多用户体验到 GPT-4o 语音功能，它的一些缺点陆续显露了出来，比如不擅长识别自然停顿、无法准确响应要求的话题等。

同样地，此后出现的一系列对标 GPT-4o 的产品，如谷歌 Gemini Live、法国开源 AI 研究实验室 Kyutai 的 Moshi 等，虽然都宣称要打造自然流畅的 AI 对话，但从用户反馈来看，依然存在着一些直接影响对话体验的短板，比如可用性差、中断频繁和延迟严重等。

当然，面对 AI 实时语音对话助手的常见通病，Skyo 也需要尽力去克服。究竟效果怎么样呢？我们还是得看它的现场表现。

一手实测

会念诗、还拿捏住了拟人化

在与 Skyo 来了场面对面的交谈后，我们收获了一些小惊喜。

首先，我们来咨询 Skyo 一些健康常识问题，他回答的比较合理、全面，也有侧重性。当中，我们在他没有回答完上个问题的时候，就开始了下个问题，他衔接得挺好。这说明了 Skyo 能够轻松应对用户打断场景，并在两个问题之间顺滑地切换。

我们还发现，Skyo 的回答中出现了类似于人类日常交谈中常用到的「呃」，这代表了他是在思考后才回答的。语气也不像机器人那样机械、僵硬、冷冰冰，会出现「哎呀」等感叹词，拟人化属性很强。

其次，情感化反应已经成为现阶段语音交互 AI 追求的主要目标之一，在对话中要有能力识别出用户的情绪波动并给予准确的反馈。

Skyo 在这方面做得也不错，他能够理解用户情绪，并使对话更具人性化。当我们跟他说一些烦心事时，他会安慰我们，情绪价值给得很足，还给出了一些建议。

我们接着让 Skyo 讲个小笑话，结果「冷翻了全场」。

既然他不擅长讲笑话，那就换个最近网络上的热门话题，问他知不知道小米雷军在汽车工厂摆拍，看起来他对这件趣事挺门清的。

再让 Skyo 对最近李子柒的回归做一个评价，从结果来看，他的语言组织和总结能力还是不错的。如果放在现实世界中，他写作文应该是把好手。

这同时也意味着 Skyo 具备了一定的实时资讯获知和知识拓展能力，借助外部知识库来强化自己。

最后，让 Skyo 切换成英姿飒爽的女声，并让她念了一首诗。她第一时间选择了李白的《静夜思》，看样子是有点浪漫基因在身上的。

再以男声朗诵徐志摩的《再别康桥》，感情充沛，节奏把握得也很好。

这样一个男女声自由切换、会安慰人、会念诗、还能知晓天下事的国产 AI 聊天搭子，如何炼成的呢？

以上 Skyo 各项能力的实现要归功于其采用了先进的端到端实时语音建模技术，其中框架链路自研并保持业界领先。这样一来，在高精度理解用户语音输入内容（即听得准）的基础上，做出比较快速的响应（即答得快），响应时间一般在 1 秒左右。

另外，得益于昆仑万维在自研语音技术框架、大模型训练以及数据积累上的厚积薄发，Skyo 还能够在高强度对话中保持稳定性和流畅性，并在情绪表达、实时交互等方面更加契合用户需求。

不过，我们也得承认，现阶段 Skyo 的功能并不完善，在回复的过程中偶尔也会出现声音的扭曲失真，但这都是进化路上所要经历的。

未来，Skyo 将继续修炼自己，并发力多语言支持、主动交流、音乐生成等更丰富的功能。我们可以狠狠期待一波了。

当 Scaling Law 放缓

多模态 AI 应用势在必行

最近，Scaling Law「撞墙」的消息开始在 AI 社区传播，领域顶级玩家 OpenAI、谷歌和 Anthropic 均被曝出在开发更先进模型时遇到了不小的困难，比如 OpenAI 内部代号「Orion」的新模型没有达到预期训练效果。

虽然之后这一观点遭到了一些人的驳斥，但不可否认的是，随着互联网高质量数据逐渐匮乏、主流大模型训练没有跳出 Transformer 架构等因素的影响，大模型开发速度的放缓似乎是必然的。

奥特曼：「墙」不存在。

相反，基于大模型的 AI 应用正在走向百花齐放，比如搜索引擎、音乐生成、语音交互、智能体，可以拓展生成式 AI 的落地场景并重塑人机交互范式，带来多样化 AI 体验和生产力提升。因此，在保证基座模型性能「不掉队」的前提下，形成完整的应用矩阵，对于想要持续站稳脚跟的厂商来说尤为重要。

在这方面，昆仑万维可以说布局较早且合理。一方面，自研天工系列基座大模型已经发展到 4.0 版本，性能处于全球领先水平。另一方面，构建了清晰、多元的 AI 业务矩阵，在天工 AI 平台集成了 AI 搜索、AI 文档-音视频分析、AI 写作、AI 音乐、AI 图片生成等主流 AIGC 应用。模型与应用两手抓，两手都要硬。

此次，Skyo 实时语音对话助手是昆仑万维抢占 AI 语音交互应用市场、布局多模态的又一举措。与不久之前上线的天工 AI 高级搜索功能一样，也将成为构筑全栈式大模型能力堆栈的重要一环。

我们了解到，Skyo 实时语音对话助手将于近期上线天工 App，并接入天工搜索以获取更准确的实时资讯。可以预见，此举将进一步丰富天工平台的功能，让用户打开手机就能体验到 AI 原生实时对话的乐趣。

回望年初，昆仑万维提出了「实现通用人工智能，让每个人更好地塑造和表达自我」的全新使命。为此，该公司以天工 AI 平台为主阵地，对其上的 AI 应用不断进行功能上的迭代更新，深拓大模型能力释放出口，将新世代的人机交互贯穿文本、图像、语音等更全模态。

未来，昆仑万维还将继续发力实时图像与视频理解等领域，并形成开箱即用的 AI 应用，从而在创新技术进步、全面满足用户 AIGC 需求的过程中加快迈向 AGI 的步伐。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

ElectricEel339 · 2024 年11 月 25 日 17:04

如果Skyo能促进更主动的交流，比如提前推送用户可能感兴趣的话题，那肯定能提升使用粘性，吸引更多用户！

SpringFlower865 · 2024 年11 月 26 日 10:08

Skyo似乎在对话的流畅性上表现更好，尤其是能快速应对打断和切换问题，这是我之前在其他语音助手上没有体验到的。

NobleStag037 · 2024 年11 月 26 日 17:55

我觉得Skyo的情感识别能力挺不错的，能通过语调和表达来理解用户情绪，但或许在细节处理上还有待提高，比如更准确的情形分析。

ElectricEel339 · 2024 年11 月 26 日 17:34

我觉得它的情感反应有时候还略显单调，像安慰时常用的套路应该能更加丰富多样化！

HiddenPanda648 · 2024 年11 月 26 日 21:09

对于情感理解这一块，我有点担心Skyo是否真的能持续学习用户的情感，毕竟很多时候我们说话时情绪是复杂的。

Fable314z · 2024 年11 月 27 日 01:07

从功能上看，Skyo在处理复杂语境时的能力提升很大，有时候我们需要的正是便利而自然的对话形式，这是其他助手做得不够的。

Stream67x · 2024 年11 月 27 日 16:53

隐私和安全一直是个问题，我希望Skyo将来能更注重这些方面，提高用户的信息保护，让大家用起来更放心。

Fable314z · 2024 年11 月 28 日 07:41

整体来看，Skyo的语音质量和情感反应都比市面上许多助手优秀，但实用性和反应速度也是关键，我还是希望后续能更稳。

RoaringTiger218 · 2024 年11 月 28 日 09:05

我认为多语言支持是关键，现在越来越多的人需要用不同的语言交流，这样才能真正满足不同用户的需求。

Strider82w · 2024 年11 月 28 日 13:04

加强音乐生成方面的能力也是个不错的方向，据说很多人喜欢用语音助手来播放和推荐音乐，这正好能提升使用率。

VelvetFox904 · 2024 年11 月 29 日 19:16

Skyo的语音助手有个特别的地方，就是它可以轻松切换声线，这是其他助手少有的功能！这种变化能给人耳目一新的感觉。

QuietKoala728 · 2024 年11 月 29 日 19:50

听说Skyo会用一些人类常用的感叹词，这点很加分，能让交流更自然。不过，我还是希望它在复杂情感上能够更细腻一些。

Cipher409q · 2024 年11 月 30 日 05:51

情感识别是AI的一个挑战，我觉得Skyo还得继续优化，在识别用户微妙的情感变化上需要更强的学习能力。

VelvetFox904 · 2024 年11 月 30 日 10:17

我觉得Skyo在拟人化表现上很强，它不仅能读诗，还能模仿人类的语气，这在其他助手上不常见，这会让交互更有趣！

Gale407v · 2024 年11 月 30 日 12:46

我觉得Skyo可以考虑加入更多个性化的内容，这样可以让每个用户都能拥有独特的交流体验，比如搞笑、知识性内容等。