OpenAI 发布了新一代音频模型 GPT-4o,包括语音转文本(gpt-4o-transcribe, gpt-4o-mini-transcribe)和文本转语音(gpt-4o-mini-tts)模型。这些模型在准确性、可靠性和语音细节捕捉方面都有显著提升,尤其是在处理口音、嘈杂环境和不同语速的复杂场景中。开发者可以通过 API 指导文本转语音模型以特定方式说话,从而实现更个性化的语音智能体应用。此外,新的语音模型还集成了强化学习,进一步提高了转录准确性并减少了幻觉。API 定价与业界平均水平保持一致,降低了开发者的使用门槛。OpenAI 还计划在未来探索更多模态能力,如视频。
怜星夜思:
1、OpenAI 这次发布的音频模型,你觉得最让你眼前一亮的是哪个特性?它可能会在哪些领域率先普及应用? 2、文章里提到了 OpenAI 计划探索更多模态能力,比如视频。你觉得未来的 AI 音视频模型会发展成什么样?会给我们生活带来哪些改变? 3、OpenAI 的音频模型 API 开放给开发者,你觉得哪些人/团队最有可能利用这些 API 创造出有趣的应用?
原文内容
机器之心报道
编辑:泽南
现在,你可以指导 GPT-4o 的说话方式了。
今天凌晨,OpenAI 突然开启了新产品发布直播,这次新发布的内容全是音频模型。
据介绍,它们实现了新的 SOTA 水平,在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音 / 文本转录应用的可靠性,新模型特别适合客户呼叫中心、会议记录转录等用例。