OpenAI发布o3-pro,推理能力大幅提升,奥特曼称其为“温和的奇点”

OpenAI发布最新推理模型o3-pro,性能大幅提升,尤其擅长科学和编程。上下文窗口200k,API价格较高。奥特曼称其为“温和的奇点”,对AI的未来充满乐观。

原文标题:刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点

原文作者:机器之心

冷月清谈:

OpenAI发布了最新的推理模型o3-pro,Pro订阅用户已可通过ChatGPT和API使用。基准测试显示,o3-pro在科学、教育、编程、数据分析和写作等领域相较于o3有明显优势,尤其擅长数学、科学和编程,但在ARC-AGI数据集上的表现与o3接近。o3-pro支持文本和图像两种输入模态,上下文窗口大小为200k,最大输出token数为100k。API定价为每百万输入token 20美元,每百万输出token 80美元,是o3的十倍。同时,OpenAI CEO Sam Altman发表博客文章《温和的奇点》,表达了对AI推动科学进步和生产力提升的乐观态度,认为AI将使世界更加富裕,并促进社会变革。

怜星夜思:

1、o3-pro的API定价是o3的十倍,这个定价策略会对哪些用户产生影响?对于普通开发者来说,是否还有其他更经济的替代方案?
2、奥特曼在博客中提到“温和的奇点”,并对AI的未来非常乐观,你认为AI发展可能带来哪些潜在风险?我们应该如何应对这些风险?
3、文章提到o3-pro擅长数学、科学和编程,你认为它在这些领域有哪些具体的应用场景?这些应用会如何改变相关行业的工作方式?

原文内容

机器之心报道

编辑:Panda


今天凌晨一点,OpenAI 宣布:OpenAI o3-pro today.



前沿模型的轮流更新这一次轮到 OpenAI 了。


https://x.com/piet_dev/status/1932530536225935374


从即日起,所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。Team 用户也可在模型选择器选择使用它。而企业用户和教育用户还需等待下一周。



有趣的是,这一次发布 o3-pro,OpenAI 并未采用以往大家熟悉的发布形式(视频直播 + 博客文章),而只是简单地发布了几条介绍推文。


尽管如此,OpenAI CEO Sam Altman 还是表示: o3-pro「真是太聪明了!我第一次看到它相对于 o3 的胜率时,简直不敢相信。」他甚至还久违地发了一篇题为「温和的奇点(The Gentle Singularity)」的博客文章 —— 将在后文呈现。



下面我们先来看看 o3-pro 的基准测试表现,然后分享一下 Pro 用户们早期测试得到的案例。


o3-pro 的基准成绩


首先来看专家评估结果,下图展示了在多项任务上,o3-pro 相较于 o3 的胜率情况。



可以看到 o3-pro 有明显优势。OpenAI 表示,在专家评估中,评论者更喜欢 OpenAI o3-pro 而不是 o3 并具有一致性,这一结果凸显了其在科学、教育、编程、数据分析和写作等关键领域的性能提升。另外,评论者还对 o3-pro 的清晰度、全面性、指令遵从性和准确性给予了更高的评价。


与 OpenAI o1-pro 一样,OpenAI o3-pro 尤其擅长数学、科学和编程,以下的学术评估结果也证明了这一点。



另外,为了评估 OpenAI o3-pro 的关键优势,OpenAI 再次使用了严格的「4/4 可靠性」评估,即只有在四次尝试中(而不仅仅是一次)正确回答问题,模型才被视为成功,结果如下:



可以看到,o3-pro 的表现依然相当出色。


而 ARC Prize 也已经公布了该模型在 ARC-AGI 半私有评估数据集上的结果。意外的是,在这个基准上,o3-pro 的表现看起来与 o3 差不多,但成本明显更高。



当然,o3-pro 也可以使用 ChatGPT 已经集成的各种工具,包括搜索网页、分析文件、推理视觉输入、使用 Python、使用记忆个性化响应等等。


目前 OpenAI 尚未公布这款强大推理模型的系统卡,但由于 o3-pro 使用了与 o3 相同的底层模型,因此安全信息等数据也可以在 o3 系统卡中找到。


另外,根据模型文档,o3-pro 支持文本和图像两种输入模态,上下文窗口大小为 200k,最大输出 token 数为 100k,知识的截至时间为 2024 年 6 月 1 日,所以它本身并不具备近一年内的信息,但用户可以通过搜索和知识库等工具为其提供更多上下文。



至于定价,ChatGPT 用户自然需要先购买 200 美元的 Pro 订阅套餐。



而 API 定价为每百万输入 token 20 美元 / 每百万输出 token 80 美元,虽然比 o1-pro 便宜 87%,但依然还是相当贵的。OpenAI 同时也建议使用 o3-pro 的后台模式:长时间运行的任务将异步启动,从而防止超时。



同时,由于已经上线了 o3-pro,o3 的价格自然也就下降了:API 定价为每百万输入 token 2 美元 / 每百万输出 token 8 美元,也就是 o3-pro API 定价的十分之一。



网友实测


和所有前沿模型更新时一样,o3-pro 一上线就有不少网友对其进行了测试。首先来看个司空见惯的六角弹跳球实验。


https://x.com/flavioAd/status/1932530860063961288


测试者 Flavio Adamo 表示:「我已经秘密测试 o3-pro 一段时间了…… 比 o1-pro 便宜得多、更快、更精确(而且使用 o3 和 o3-pro 进行编程简直感觉是天壤之别)。」


生物医学科学家 Derya Unutmaz 则分享了一个更有趣的案例:与 o3-pro 合作开发免疫系统 2.0。





用户 @Suzacque 则分享了 o3-pro 在海报设计和分析中的卓越表现。



用户 @adonis_singh 表示 o3-pro 可以 100% 地解决外科医生误导性注意力难题,并且从不怀疑自己。他感慨到:「这是真正巨大的进步。」他还表示该模型懂得何时需要思考 ——「在不需要思考的时候也会少思考很多,根据我的经验,它比我接触过的任何其他模型都更不阿谀奉承。(没有任何自定义指令 / 系统提示) 对于第一点,对于提示『Hi there』,o1 pro 思考了 28 秒,而 o3 pro 的回复时间不到 7 秒。」



该用户还让 o3-pro 使用纯 HTML、CSS 和 JS 在单个文件中制作的一个「非常酷的」极限空间行走模拟器。这个过程使用了 2 个提示词,得到了如下演示的结果。



当然,也有一些用户直言失望。


https://x.com/quietlogic22/status/1932533482355347669


https://x.com/JaydenDavisNC/status/1932532525634605364


你已经体验过 o3-pro 了吗?不妨与我们分享一下你的看法。


最后,我们来看看 OpenAI 山姆・奥特曼这篇充满乐观未来主义的博客吧。


温和的奇点(The Gentle Singularity)


  • 作者:Sam Altman

  • 原文链接:https://blog.samaltman.com/the-gentle-singularity


我们已经超越了事件视界;腾飞已经开始。人类即将打造数字超级智能(digital superintelligence),而至少目前看来,它远没有想象的那么奇怪。


街道上还没有机器人行走,我们大多数人也还没有整天和 AI 对话。人们仍然会死于疾病,我们仍然无法轻易进入太空,而且关于宇宙,我们还有很多不理解的地方。


然而,我们最近构建了在很多方面都比人类更聪明的系统,并且能够显著提升使用者的产出。最不可能的部分已经过去;让我们获得 GPT-4 和 o3 等系统的科学洞见来之不易,但将引领我们走得更远。


AI 将在很多方面为世界做出贡献,但 AI 所推动的更快科学进步和生产力提升对于生活质量的提升而言将是非常巨大的;未来可能比现在更加美好。科学进步是整体进步的最大驱动力;想想我们还能拥有多少进步,就令人无比兴奋。


从某种意义上来说,ChatGPT 已经比任何人类都强大。数亿人每天都依赖它完成日益重要的任务;一项小小的新功能就能带来巨大的积极影响;而一个微小的不对齐(misalignment),加上数亿人的乘数,就可能造成巨大的负面影响。


2025 年,能够进行真正认知工作的智能体已经出现;编写计算机代码的方法早已不同。2026 年,我们很可能会看到能够提出全新见解的系统出现。2027 年,我们或许会看到能够在现实世界中执行任务的机器人到来。


更多的人将能够创作软件,以及艺术。但世界对软件和艺术的需求远超于此,只要专家能够接受新工具,他们可能仍然比新手更优秀。总的来说,到 2030 年,一个人能够完成比 2020 年多得多的工作,这将是一个重大转变,许多人将会找到从中受益的方法。


从最重要的方面来看,2030 年代可能不会有太大不同。人们仍然会爱他们的家庭、表达他们的创造力、玩游戏、在湖中游泳。


但在仍然非常重要的方面,2030 年代可能会与以往任何时候截然不同。我们不知道 AI 能超越人类智能水平到什么程度,但我们将会找到答案。


在 2030 年代,智力和能量 —— 想法,以及将想法付诸实践的能力 —— 将变得异常丰富。长期以来,这两者一直是人类进步的根本限制因素;有了丰富的智力和能量(以及良好的治理),理论上我们可以拥有任何其他东西。


我们已经生活在令人难以置信的数字智能之中,在最初的震惊之后,我们大多数人都已经相当习惯了。很快,我们就从惊讶于 AI 可以生成一个优美的段落,转变为想知道它什么时候可以生成一部优美的小说;或者从惊叹它能做出救命的医学诊断,到好奇它何时能研发出治愈方法;或者从惊叹它能编写一个小型计算机程序,到好奇它何时能创立一家全新的公司。奇点就是这样:奇迹变成日常,然后成为筹码。


我们已经听到科学家们说,他们的生产力比 AI 出现之前提高了两到三倍。高级 AI 之所以引人注目,原因有很多,但或许最重要的,莫过于我们能用它来更快地进行 AI 研究。我们或许能够发现新的计算基础、更好的算法,以及谁知道还有什么其他发现。如果我们能在一年或一个月内完成十年的研究成果,那么进步的速度显然会截然不同。


从现在开始,我们已经构建的工具将帮助我们获得进一步的科学洞见,并帮助我们创建更好的 AI 系统。当然,这与 AI 系统完全自主地更新其代码不同,但这仍然是递归式自我改进的早期版本。


还有其他自我强化的循环在起作用。经济价值创造已经启动了一个飞轮:不断增加基础设施建设,以运行这些日益强大的 AI 系统。而能够构建其他机器人的机器人(从某种意义上说,也包括能够构建其他数据中心的数据中心)也并非遥不可及。


如果我们必须以传统的方式制造出第一批百万数量级的人形机器人,但之后它们能够操作整个供应链 —— 开采和提炼矿物、驾驶卡车、运营工厂等等 —— 来制造更多机器人,而这些机器人又可以建造更多的芯片制造设施、数据中心等等,那么进展速度显然会大不相同。


随着数据中心生产的自动化,智能成本最终应该会收敛到接近电力成本。(人们经常好奇 ChatGPT 查询消耗了多少能源;平均每次查询消耗大约 0.34 瓦时,大约相当于烤箱的耗电量略高于一秒钟,高效灯泡的耗电量则为几分钟。它消耗的水量约为 0.000085 加仑;大约相当于十五分之一茶匙的水。


技术进步的速度将持续加快,人们也将继续能够适应几乎任何事物。虽然会有一些非常艰难的时刻,比如某些工作岗位会逐渐消失,但另一方面,世界将以惊人的速度变得更加富裕,以至于我们能够认真考虑以前从未考虑过的新政策理念。我们或许不会一下子就采纳一项新的社会契约,但几十年后回首往事,这些渐进式的变革将产生巨大的影响。


如果以史为鉴,我们会发现新的事情要做,新的东西要追求,并迅速吸收新的工具(工业革命后的工作变化就是一个很好的例子)。期望值会上升,但能力也会同样快速地提升,我们都会得到更好的东西。我们将为彼此创造更加美好的事物。人类比 AI 拥有一项长期而重要且令人好奇的优势:我们天生就关心他人以及他们的想法和行为,而我们不太关心机器。


一千年前,一位自给自足的农民会看着我们许多人的所作所为,说我们所做的工作是虚假的,认为我们只是在玩游戏自娱自乐,因为我们拥有充足的食物和难以想象的奢侈品。我希望一千年后,我们看待这些工作时,会认为它们非常虚假,而且我毫不怀疑,从事这些工作的人会感到无比重要和满足。


新的奇迹将以惊人的速度不断涌现。今天甚至很难想象到 2035 年我们会发现什么;也许我们会在今年解决高能物理问题,第二年就开始太空殖民;或者从今年的重大材料科学突破,到第二年实现真正的高带宽脑机接口。许多人会选择以大致相同的方式生活,但至少有些人可能会决定「接入互联网」。


展望未来,这听起来难以理解。但经历这一切或许会让人感到印象深刻,但并非不可避免。从相对论的角度来看,奇点是一点一点出现的,融合也是缓慢发生的。我们正在攀登指数级技术进步的长弧;它总是向前看是垂直的,向后看是平坦的,但它是一条平滑的曲线。(回想一下 2020 年,如果 2025 年就能实现接近通用 AI 的设想,那会是什么样子,而过去五年实际上却并非如此。)


在巨大的优势之外,也存在着严峻的挑战。我们确实需要解决技术和社会层面的安全问题,但考虑到其经济影响,广泛普及超级智能的使用权也至关重要。最佳的前进之路或许是这样的:


决协同问题,这意味着我们可以强有力地保证 AI 系统能够学习并朝着我们共同的长期目标行动(社交媒体信息流就是一个协同失调的 AI 的例子;驱动这些系统的算法非常擅长让你不断滚动浏览并清晰地了解你的短期偏好,但它们是通过利用你大脑中某些凌驾于长期偏好之上的东西来做到这一点的)。


然后,专注于让超级智能变得廉价、广泛可用,并且不会过于集中于任何个人、公司或国家。社会具有韧性、创造力,并且适应能力强。如果我们能够驾驭人们的集体意志和智慧,那么尽管我们会犯很多错误,有些事情会变得非常糟糕,但我们能够快速学习和适应,并能够利用这项技术获得最大的好处和最小的坏处。在社会必须决定的宽泛范围内赋予用户很大的自由度,似乎非常重要。世界越早开始讨论这些宽泛的界限是什么,以及我们如何定义集体协同,就越好。我们(整个行业,不仅仅是 OpenAI)正在为世界构建一个大脑。它将极其个性化,人人皆可轻松使用;我们将受到好点子的限制。长期以来,初创企业的技术人员一直嘲笑「创意人」;那些有想法却想找团队来实现的人。现在在我看来,他们即将迎来辉煌的一天。


OpenAI 现在有很多业务,但首先,我们是一家超级智能研究公司。我们面前有很多工作要做,但大部分路途如今已被照亮,黑暗区域正在迅速消退。我们非常感激能够从事我们所做的事情。


廉价到无法计量的智能触手可及。这听起来可能很疯狂,但如果我们在 2020 年告诉你我们将会达到今天的水平,那听起来可能比我们现在的预测更疯狂。


希望我们能够通过超级智能平稳、指数级、平安地 scale


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

同意楼上的观点,这个定价对小型团队影响很大。不过我觉得OpenAI可能也是为了区分用户群体,高端用户追求极致性能,对价格不敏感;而普通用户则可以选择更经济的o3。至于替代方案,可以关注一些新兴的AI公司,他们为了抢占市场,可能会提供更有竞争力的价格。另外,是不是也可以考虑一些云平台的折扣活动?

这个问题很有意义!o3-pro十倍于o3的价格,明显会影响对价格敏感的用户,比如小型创业公司、独立开发者,或者学生群体。他们可能不得不重新考虑是否使用最新模型,或者退而求其次选择o3。替代方案嘛,可以考虑开源模型或者其他厂商提供的服务,但可能需要付出更多的时间和精力去适配,效果也可能没那么好。总之,选择哪个方案还是得看具体需求和预算。

o3-pro在数学、科学和编程上的优势,意味着它在很多专业领域都能大显身手。比如,在科研领域,它可以辅助科学家进行数据分析、模型构建和实验设计,加速科研进程;在教育领域,它可以提供个性化的学习辅导,帮助学生更好地理解知识;在编程领域,它可以自动生成代码、检测bug,提高开发效率。这些应用最终会改变相关行业的工作方式,让人们从重复性的劳动中解放出来,专注于更有创造性的工作。

我更担心的是AI的偏见问题,如果训练数据本身就存在偏见,那么AI模型也会继承这些偏见,导致歧视现象。比如,在招聘领域,AI可能会歧视特定性别或种族。解决这个问题,需要更加重视训练数据的质量和多样性,并开发相应的算法来消除偏见。而且,我觉得应该建立一个独立的第三方机构,对AI系统进行评估和监督,确保其公平性和公正性。

风险总是与机遇并存嘛。我觉得奥特曼说的“温和的奇点”可能是一种理想状态,现实情况肯定会更加复杂。与其杞人忧天,不如积极拥抱AI,努力学习相关知识,提升自己的技能,适应未来的变化。毕竟,与其被动地被AI取代,不如主动地利用AI来提升自己,创造更多价值。就像工业革命一样,虽然淘汰了一些旧的工作,但也创造了更多新的机会。

从经济学角度分析,OpenAI可能采取了“价格歧视”策略,将用户分为不同类型,并根据不同类型的需求和支付意愿收取不同的价格。对于不想付出高昂成本的用户,可以尝试针对特定任务对小模型进行微调(fine-tune),有可能以更低的成本获得可接受的效果。另外,也可以关注是否有类似HuggingFace这样的平台提供性价比更高的模型选择。

奥特曼的乐观情绪可以理解,但我们也不能忽视潜在风险。比如,AI可能加剧就业分化,导致失业率上升;也可能被用于恶意目的,比如网络攻击、虚假信息传播等等。更不用说,如果AI真的超越人类智能,可能对社会伦理和价值观产生深远影响。应对这些风险,需要政府、企业、研究机构和社会各界共同努力,制定合理的监管政策,加强伦理教育,并确保AI的发展符合人类的共同利益。我觉得未雨绸缪总是好的。

我觉得o3-pro在医药研发领域有很大的潜力,它可以帮助科学家分析大量的生物数据,加速新药的研发过程。另外,在金融领域,它可以用于风险评估、量化交易等方面,提高投资效率。当然,这些应用也需要专业人士的配合,才能发挥出最大的价值。AI只是工具,关键在于如何使用它。

我比较关注o3-pro在开源社区的应用,如果它可以更好地理解代码,自动修复漏洞,甚至参与到新功能的开发中,那将大大提升开源项目的质量和效率。毕竟,开源社区的贡献者们都是利用业余时间进行开发,如果有了AI的帮助,他们可以更高效地完成工作,做出更好的产品。当然,前提是OpenAI能提供更友好的授权方式。