OpenAI 发布新一代音频模型 GPT-4o,语音智能体时代来临?

OpenAI 发布 GPT-4o 音频模型,显著提升语音细节捕捉和转录准确性,开启语音智能体定制化新维度,API定价亲民。

原文标题:刚刚,OpenAI开启语音智能体时代,API价格低至每分钟0.015美元

原文作者:机器之心

冷月清谈:

OpenAI 发布了新一代音频模型 GPT-4o,包括语音转文本(gpt-4o-transcribe, gpt-4o-mini-transcribe)和文本转语音(gpt-4o-mini-tts)模型。这些模型在准确性、可靠性和语音细节捕捉方面都有显著提升,尤其是在处理口音、嘈杂环境和不同语速的复杂场景中。开发者可以通过 API 指导文本转语音模型以特定方式说话,从而实现更个性化的语音智能体应用。此外,新的语音模型还集成了强化学习,进一步提高了转录准确性并减少了幻觉。API 定价与业界平均水平保持一致,降低了开发者的使用门槛。OpenAI 还计划在未来探索更多模态能力,如视频。

怜星夜思:

1、OpenAI 这次发布的音频模型,你觉得最让你眼前一亮的是哪个特性?它可能会在哪些领域率先普及应用?
2、文章里提到了 OpenAI 计划探索更多模态能力,比如视频。你觉得未来的 AI 音视频模型会发展成什么样?会给我们生活带来哪些改变?
3、OpenAI 的音频模型 API 开放给开发者,你觉得哪些人/团队最有可能利用这些 API 创造出有趣的应用?

原文内容

机器之心报道
编辑:泽南
现在,你可以指导 GPT-4o 的说话方式了。
今天凌晨,OpenAI 突然开启了新产品发布直播,这次新发布的内容全是音频模型。


据介绍,它们实现了新的 SOTA 水平,在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音 / 文本转录应用的可靠性,新模型特别适合客户呼叫中心、会议记录转录等用例。

基于新的 API,开发人员第一次可以指示文本转语音模型以特定方式说话,例如让 AI「像富有同情心的客户服务人员一样说话」,从而为语音智能体开启新的定制化维度,可以实现各种定制应用程序。

OpenAI 还开放了一个网站,让你可以直接测试音频大模型的能力:https://www.openai.fm/


OpenAI 于 2022 年推出了第一个音频模型,并一直致力于提高这些模型的智能性、准确性和可靠性。借助新的音频模型及 API,开发人员可以构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。

具体来说,新的 gpt-4o-transcribegpt-4o-mini-transcribe 模型与原始 Whisper 模型相比改进了单词错误率,提高了语言识别和准确性。

gpt-4o-transcribe 在多个既定基准中展示了比现有 Whisper 模型更好的单词错误率 (WER) 性能,实现了语音转文本技术的重大进步。这些进步源于强化学习创新以及使用多样化、高质量音频数据集进行的大量中期训练。

这些新的语音-文本模型可以更好地捕捉语音的细微差别,减少误认,并提高转录可靠性,尤其是在涉及口音、嘈杂环境和不同语速的具有挑战性的场景中。

几种模型的单词错误率(越低越好)。

在 FLEURS 上,OpenAI 的模型实现了更低的 WER 和强大的多语言性能。WER 越低越好,错误越少。

OpenAI 还推出了一个可操纵性更好的新 gpt-4o-mini-tts 模型。在其之上,开发人员第一次可以「指导」模型,不仅可以指导模型说什么,还可以指导模型如何说,从而为大量用例提供更加定制化的体验。该模型可在 text-to-speech API 中使用。不过目前,这些文本转语音模型仅限于人工预设的声音,且受到 OpenAI 的监控。

就在昨天,OpenAI 推出的 还因为每百万 token 收费 600 美元而遭到了 AI 社区的广泛吐槽。今天 OpenAI 推出的三款语音 API 价格倒是保持了业界平均水准:gpt-4o-mini-tts 的百万 token 文本输入价格是 $0.60,音频输出价格为 $12.00;gpt-4o-transcrib 文本输入价格是 $2.50,音频输入价格 $10.00,音频输出价格 $6.00;gpt-4o-mini-transcribe 的文本输入价格是 $1.25,音频输入价格 $5.00,音频输出价格 $3.00。

因此今天的发布也受到了人们的欢迎。


OpenAI 的新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构,并在专门的以音频为中心的数据集上进行了广泛的预训练,这对于优化模型性能至关重要。这种有针对性的方法可以更深入地了解语音细微差别,并在与音频相关的任务中实现出色的性能。

在模型训练中,OpenAI 增强了提炼技术,使知识从最大的音频模型转移到了更小、更高效的模型上。利用先进的自我博弈方法,OpenAI 的提炼数据集有效地捕捉了真实的对话动态,复制了真正的用户助手交互,这有助于小型模型提供出色的对话质量和响应能力。

OpenAI 的语音转文本模型集成了大量强化学习,将转录准确性推向了最先进的水平。据称,这种方法大大提高了精度并减少了幻觉,使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力。

这些发展代表了音频建模领域的进步,将创新方法与实用增强功能相结合,以增强语音应用程序的性能。

这些新的音频模型现在可供所有开发人员使用:https://platform.openai.com/docs/guides/audio


对于已经使用基于文本的模型构建对话体验的开发人员,添加 OpenAI 语音转文本和文本转语音模型是构建语音智能体的最简单方法。OpenAI 发布了与 Agents SDK 的集成以简化此开发过程。对于希望构建低延迟语音转语音体验的开发人员,OpenAI 建议使用 Realtime API 中的语音转语音模型进行构建。

在未来,OpenAI 计划继续提升音频模型的智能性和准确性,并探索允许开发人员使用自定义声音构建更加个性化体验的方法。包括视频等更多模态的能力也在研发过程当中。

参考内容:
https://openai.com/index/introducing-our-next-generation-audio-models/


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得独立开发者和小型创业团队更有可能创造出意想不到的应用。他们没有大公司的条条框框,更敢于创新和尝试。而且,这次 OpenAI 的 API 价格比较亲民,降低了他们的开发门槛。说不定下一个爆款应用就出自他们之手。

个人认为最关键的改进是对于复杂语音环境的处理能力,包括口音、噪音和语速变化。这使得语音交互在实际应用场景中更加可靠。我预测在智能会议记录、实时翻译等领域会有广泛应用,因为这些场景对语音识别的准确性和鲁棒性要求非常高。

这次的亮点绝对是低廉的价格!之前 OpenAI 的 API 价格一直被人诟病,这次终于接地气了。这可能会刺激很多小型开发者入场,创造出更多有趣的语音应用。比如,做一个能根据用户情绪自动调整语气的 AI 播客,想想就很有意思。

我觉得最亮眼的是可以“指导”AI 说话的方式。以前的 TTS 都是冷冰冰的,现在能模拟不同的情感和语气,感觉 AI 更有“人味儿”了。估计客服、有声读物这些领域会先用起来,想象一下以后跟 AI 客服聊天,它能用温柔的语气安慰你,或者听 AI 用抑扬顿挫的声音讲故事,感觉还挺不错的。

我更关注伦理方面的影响。如果 AI 生成的音视频内容足够逼真,我们如何分辨真假?会不会有人利用 AI 伪造新闻、恶意中伤他人?这些都是需要提前考虑和防范的问题。技术发展的同时,监管也要跟上。

游戏开发者也可以大展拳脚。他们可以利用这些 API 为游戏角色配音,或者实现更智能的 NPC 对话。想象一下,在游戏中与 AI 对话,它能根据你的语气和情感做出不同的反应,这会大大提升游戏的沉浸感。

对于一些toB的行业来说也是一次比较大的飞跃,例如使用AI进行电话营销的公司,他们应该会很乐意使用,毕竟现在的人工智能营销已经屡见不鲜了,对于他们来说成本更低也更加方便

我觉得未来的 AI 音视频模型会朝着更智能、更逼真的方向发展。可能不仅仅是简单的语音转文字、文字转语音,而是能理解视频内容,生成更自然的对话和互动。比如,AI 可以自动为老电影配音,让它们焕发新生;或者,AI 可以生成虚拟主播,7x24 小时不间断直播,想想就觉得很有潜力。

从技术角度来看,多模态融合是必然趋势。未来的 AI 不仅能听懂语音、看懂视频,还能理解文字、图像等多方面的信息,从而更好地理解人类意图。例如,在教育领域,AI 可以根据学生的学习情况,自动生成个性化的教学视频,帮助他们更好地掌握知识。