OpenAI 发布更快速经济的推理模型 o3-mini,免费用户也可体验

OpenAI 发布 o3-mini,速度更快、成本更低,免费用户也能体验!

原文标题:奥特曼被逼急:深夜上线 o3-mini,甚至免费,网友:还是选DeepSeek

原文作者:机器之心

冷月清谈:

OpenAI 最新发布了 o3-mini 推理模型,包含 low、medium 和 high 三个版本,性能更强、速度更快、成本更低。o3-mini 已上线 ChatGPT 和 API,ChatGPT Plus、Team 和 Pro 用户现已可用,企业版访问权限将在一周内开放。免费用户也可通过选择“推理”或重新生成响应来试用 o3-mini。o3-mini 针对 STEM 推理进行了优化,在数学、编程和科学领域表现与 o1 相当,但响应速度更快,错误率更低。o3-mini-medium 在一些最具挑战性的推理和智能评估中与 o1 表现相当,甚至 o3-mini-high 在某些方面还超越了 o1。o3-mini 的响应速度比 o1-mini 快 24%,安全性也得到了提升。OpenAI 表示,o3-mini 的发布是其在推进高性价比智能方面又迈出的一步。

怜星夜思:

1、o3-mini的出现对教育行业会产生哪些影响?
2、如果o3-mini的推理能力持续提升,它是否会取代程序员的工作?
3、OpenAI不断推出新的模型,这对于其他AI公司来说意味着什么?

原文内容

机器之心报道

机器之心编辑部


奥特曼能不急吗?

被 DeepSeek 狂轰乱炸了一周后,终于在今天发布了新的模型 o3-mini。


此次发布,o3-mini 包含 low、medium 和 high 三个版本。

OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。

我们打开 ChatGPT,o3-mini 和 o3-mini-high 两个新模型已然上线。


不过 o3-mini 目前还不支持视觉功能,因此开发者需要继续使用 OpenAI o1 进行视觉推理任务。

在使用权限上,ChatGPT Plus、Team 和 Pro 用户从今天起就可以访问 OpenAI o3-mini,企业版访问权限将在一周内开放。

作为此次升级的一部分,OpenAI 将 Plus 和 Team 用户的速率限制从 o1-mini 的每天 50 条消息提高到 o3-mini 的每天 150 条消息。此外,o3-mini 现在可以使用搜索功能,提供带有相关网络来源链接的最新答案。这是其在推理模型中整合搜索功能的早期原型。

从今天开始,免费用户也可以通过在消息编辑器中选择「推理」或重新生成响应来试用 OpenAI o3-mini。这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。


虽然 OpenAI o1 仍然是更广泛使用的通用知识推理模型,但 OpenAI o3-mini 为需要精确性和速度的技术领域提供了专门的替代选择。在 ChatGPT 中,o3-mini 使用中等推理级别来提供速度和准确性之间的平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high,从而获得需要更长时间生成响应但智能水平更高的版本。Pro 用户将可以无限制地访问 o3-mini 和 o3-mini-high。

对于此次发布,网友反馈如何?

知名播客主理人 Lex Fridman 表示,OpenAI o3-mini 虽然是一个很好的模型,但 DeepSeek r1 的性能相似,而且更便宜,并揭示推理过程。


他甚至给出了「DeepSeek moment」这样一个词形容 DeepSeek 带来的深远影响。

接下来,就让我们看下 o3-mini 的性能指标:

快速、强大且针对 STEM 推理优化

与其前身 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当,同时响应速度更快。专家测试人员的评估显示,o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)上与 o1 的表现相当。
 
竞赛数学(AIME 2024):


竞赛数学:o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和  o1,上图中灰色阴影区域为 64 个样本的多数投票(共识)。
 
博士级科学问题(GPQA Diamond):


博士极科学问题:o3-mini-low 的表现优于 o1-mini。o3-mini-high  的表现与 o1 相当,在博士级生物学、化学和物理问题上都显示出显著进步。
 
研究级数学(FrontierMath):


研究级数学:o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时,o3-mini-high 能够在首次尝试时解决超过 32% 的问题,包括超过 28% 的具有挑战性的(T3)问题。
 
竞赛编程(Codeforces):


在 Codeforces 编程中, o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数,均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。
 
软件工程(SWE-bench Verified):


软件工程:o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率,使用内部工具可达到 61% 的准确率。
 
LiveBench 编码:


LiveBench 编码:即便是 o3-mini-medium 也超过了 o1-high,突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势,在关键指标上取得了显著更强的表现。
 
普通知识问题:


普通知识问题:o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。
 
人类偏好评估:


人类偏好评估:外部专家测试人员的评估显示, o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强,特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。
 
模型速度和性能

o3-mini 在保持与 OpenAI o1 相当的智能水平的同时,提供了更快的性能和更高的效率。除了上述 STEM 评估外,o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

延迟:o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。
 
安全

OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐(deliberative alignment),这种对齐方式训练模型在回答用户提示之前,先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似,研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前,OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。

违规内容评估结果


越狱评估结果


未来展望

OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力,同时保持低成本,OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来,每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展,OpenAI 仍然致力于在前沿领域引领,构建即使在大规模部署和使用的情况下,也能保持智能、效率与安全平衡的模型。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

关于“o3-mini的出现会取代程序员”这个问题,我认为不太可能完全取代,但肯定会改变程序员的工作方式。一些重复性的、简单的编码工作可能会被AI接管,但程序员可以专注于更高级别的设计、架构和创新。就像工业革命时期机器取代了部分人力劳动一样,程序员这个职业也会进化。

o3-mini取代程序员?我觉得有点杞人忧天了。AI再怎么厉害,它也只是个工具。程序员的工作不仅仅是写代码,更重要的是解决问题、设计方案。AI可以辅助程序员提高效率,但无法取代程序员的创造力和思考能力。

从o3-mini的介绍来看,它在STEM领域的表现很突出,这可能会加剧教育资源的差距。经济条件好的学校和学生可以更好地利用这些AI工具,而条件差的学校和学生可能会落后。如何弥合这种差距,是教育行业需要面对的一个挑战。

我觉得o3-mini对教育行业的影响会很大。首先,它可能会改变学生的学习方式,可以帮助学生更轻松地理解复杂的概念,也方便学生进行自主学习。当然,也会带来一些挑战,比如如何防止学生过度依赖AI完成作业,以及如何利用AI更好地促进学生的批判性思维发展。

OpenAI狂飙突进,其他AI公司估计压力山大。不过,竞争也促进了技术的进步,说不定其他公司也能另辟蹊径,弯道超车呢。就像文章里提到的DeepSeek,不就对OpenAI构成了一定的挑战吗?

与其担心被取代,不如想想怎么利用o3-mini提高自己的竞争力。学会使用AI工具的程序员,工作效率肯定更高,也能解决更复杂的问题。与其害怕被淘汰,不如主动拥抱变化。

我认为OpenAI的快速发展对整个AI行业来说都是一件好事,这会加速AI技术的普及和应用。其他AI公司可以借鉴OpenAI的经验,找到自己的定位和发展方向,共同推动AI技术的发展。

OpenAI不断推出新模型,对于其他AI公司来说,既是挑战也是机遇。一方面,OpenAI的技术领先地位会给其他公司带来竞争压力,需要加大研发投入才能跟上OpenAI的步伐;另一方面,OpenAI的开源策略和API接口也为其他公司提供了合作和创新的机会,可以基于OpenAI的技术开发自己的应用和服务。

o3-mini这玩意儿对教育肯定有影响啊,你想想,以后写作业、做研究是不是更方便了?老师批改作业的难度估计也会降低不少。不过,对教育工作者来说,怎么把AI工具融入到教学中,而不是被AI取代,是个值得思考的问题。