OpenAI发布GPT-4.1系列模型:性能提升显著,超越GPT-4o

OpenAI发布GPT-4.1系列模型,性能大幅提升,尤其在编程、指令执行和长文本理解上超越GPT-4o,并针对不同应用场景优化了成本和延迟。

原文标题:OpenAI发布GPT-4.1系列模型,性能大幅提升,碾压4o

原文作者:图灵编辑部

冷月清谈:

OpenAI发布了GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款AI模型,这些模型在编程、指令执行和长文本理解等方面均超越了GPT-4o系列。GPT-4.1在SWE-bench Verified基准测试中编程能力提升显著,在Scale的MultiChallenge基准测试中指令执行能力更强,在Video-MME基准测试中长文本理解能力也得到了提高。同时,GPT-4.1系列还针对不同应用场景推出了变种模型,如GPT-4.1 mini专注于低延迟和低成本,GPT-4.1 nano专为计算资源有限的环境设计。GPT-4.1系列在智能代理系统领域具有巨大的应用潜力,能够独立执行任务,提高工作效率。GPT-4.1系列的模型能够处理最多100万个token的上下文,极大地扩展了处理大型代码库或大量长文档的能力。

怜星夜思:

1、GPT-4.1系列在编程能力上的提升,对软件开发行业会带来哪些具体的影响?开发者应该如何应对这种变化?
2、GPT-4.1 mini 在降低延迟和成本方面做了很大改进,这对哪些行业或应用场景最有价值?
3、OpenAI 停止使用 GPT-4.5 Preview,并将相关创新融入未来的 API 模型中,你觉得 GPT-4.5 Preview 中哪些创新最值得期待?

原文内容

OpenAI 发布了三款全新的 AI 模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些新模型在多个方面超越了其前任——GPT-4o 系列,尤其在编程、指令执行和长文本理解上取得了显著进展。新一代的 GPT-4.1 系列不仅提供了更强的性能,还对成本和延迟进行了优化,进一步推动了 AI 技术在实际应用中的普及与落地。
GPT-4.1 系列在多个领域的性能提升,意味着它已成为更加适合真实世界任务的工具,尤其是在以下几个关键领域:
  • 编程能力:GPT-4.1 在 SWE-bench Verified 基准测试中的得分达到了 54.6%,相比 GPT-4o 提升了 21.4%,超过 GPT-4.5 则提高了 26.6%。这一成绩使其成为目前编程领域的领先 AI 模型,特别适用于需要高精度代码生成和错误修正的场景。
  • 指令执行能力:在 Scale 的 MultiChallenge 基准测试中,GPT-4.1 的得分为 38.3%,较 GPT-4o 提高了 10.5%。这一改进意味着 GPT-4.1 在理解和执行复杂指令上的能力得到了显著增强,能够更好地处理多样化的任务需求。
  • 长文本理解:GPT-4.1 在 Video-MME 基准测试中表现出色,在“长无字幕”类别中取得了 72.0% 的得分,较 GPT-4o 提高了 6.7%。这一进步表明,GPT-4.1 在理解长文本内容方面具有更高的精确度,特别是在需要理解多重上下文信息的任务中表现尤为突出。
GPT-4.1 family intelligence by latency

根据不同的应用场景,GPT-4.1 系列还推出了适用于不同任务需求的变种模型,进一步提升了 AI 在低延迟、高性能任务中的表现:

  • GPT-4.1 mini:GPT-4.1 mini 相比 GPT-4o 在多个基准测试中表现优异,同时将延迟减少了近 50%, 成本降低了 83%。它不仅保持了和 GPT-4o 相当的智能水平,还提供了更低的响应时间和更高的性价比,特别适合需要快速响应的任务,如实时数据处理和低延迟计算任务。
  • GPT-4.1 nano:作为最小的模型,GPT-4.1 nano 是专为低延迟和低成本需求设计的 AI 模型。它在 MMLU 上得分 80.1%,在 GPQA 上得分 50.3%,在 Aider polyglot coding 上得分 9.8%,这些成绩均优于GPT-4o mini。GPT-4.1 nano适用于分类、自动补全等任务,尤其是在计算资源有限的环境中,它依然能够提供卓越的性能。
GPT-4.1 系列的升级不仅在各类基准测试中表现卓越,更在实际应用中展现了强大的潜力。尤其是在智能代理系统的领域,GPT-4.1 的改进使其成为一个理想选择。智能代理可以独立执行任务,如从大文档中提取信息、处理客户请求、自动化软件工程等,这些功能的提升得益于 GPT-4.1 在指令理解和长文本处理上的强大能力。
开发者可以通过 Responses API 等工具,构建更加高效和可靠的代理系统,使其在复杂环境中也能独立完成任务,降低了人力干预的需求,并提高了工作效率。
随着 GPT-4.1 系列的发布,GPT-4.5 Preview 将在 2025 年 7 月 14 日正式停用。GPT-4.5 曾作为一款研究预览版,探索大规模计算模型的潜力,但随着 GPT-4.1 的推出,它在性能、成本和延迟方面的优势使得 GPT-4.5 不再适合持续使用。GPT-4.5 在创作、写作质量、幽默感等方面的创新,将继续融入到未来的 API 模型中,以确保这些独特的特点不被遗失。
GPT-4.1 系列不仅提供了强大的性能优势,还通过优化延迟和降低成本,显著提升了 AI 模型的适用性。随着 GPT-4.1 系列的全面应用,开发者将能在多种任务场景中获得更高效、更智能的解决方案。
GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 能够处理最多 100 万个 tokens 的上下文——相比于之前的 GPT-4o 模型的 128,000 个 tokens,提升了很多。100 万个 tokens 相当于超过 8 份完整的 React 代码库,因此长上下文特别适合处理大型代码库或大量长文档。
目前 GPT-4.1、GPT-4.1 mini  和  GPT-4.1 nano 已向所有开发人员推出。

GPT-4.1 输入/输出费用为每百万 token 2 美元和 8 美元,较 GPT-4o 便宜 26%。提示词缓存折扣提高至 75%,长上下文无额外费用。


 大模型从理论到应用开发 
 必读这三本!

《大模型技术30讲》
塞巴斯蒂安·拉施卡|著

叶文滔 | 译

GitHub 项目 LLMs-from-scratch(star数44k)作者、大模型独角兽公司 Lightning AI 工程师倾力打造,全书采用独特的一问一答式风格,探讨了当今机器学习和人工智能领域中最重要的 30 个问题,旨在帮助读者了解最新的技术进展。

内容共分为五个部分:神经网络与深度学习、计算机视觉、自然语言处理、生产与部署、预测性能与模型评测。每一章都围绕一个问题展开,不仅针对问题做出了相应的解释,并配有若干图表,还给出了练习供读者检验自身是否已理解所学内容。

《从零构建大模型》
塞巴斯蒂安·拉施卡|著

覃立波,冯骁骋,刘乾 | 译

全网疯传的大模型教程,由畅销书作家塞巴斯蒂安•拉施卡撰写,通过清晰的文字、图表和实例,逐步指导读者创建自己的大模型。

在本书中,读者将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练,以及定制特定任务的微调。此外,本书还将探讨如何利用人工反馈确保大模型遵循指令,以及如何将预训练权重加载到大模型中。还有惊喜彩蛋 DeepSeek,作者深入解析构建与优化推理模型的方法和策略。

《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》 

奥利维耶·卡埃朗,[法] 玛丽–艾丽斯·布莱特 | 著

何文斯 | 译

深受读者喜爱的大模型应用开发图书升级版,作者为初学者提供了一份清晰、全面的“最小可用知识”,带领你快速了解 GPT-4 和 ChatGPT 的工作原理及优势,并在此基础上使用流行的 Python 编程语言构建大模型应用。

升级版在旧版的基础上进行了全面更新,融入了大模型应用开发的最新进展,比如 RAG、GPT-4 新特性的应用解析等。随书赠 DeepSeek × Dify 应用开发案例,书中还提供了大量简单易学的示例,帮你理解相关概念并将其应用在自己的项目中。

说到GPT-4.1 mini,我第一个想到的就是直播带货!想象一下,直播间里有一个AI助手,可以实时回答用户的问题,根据用户的喜好推荐商品,甚至还能和用户“唠嗑”,这带货效率肯定杠杠的!

而且,现在直播平台竞争这么激烈,谁能用更低的成本,提供更好的用户体验,谁就能胜出。GPT-4.1 mini简直就是直播带货的秘密武器啊!:money_mouth_face:

从学术的角度来看,GPT-4.1的编程能力提升可能会加速软件工程领域的自动化研究。我们可以预期看到更多关于AI辅助代码生成、自动测试和代码优化的研究成果。同时,这也可能引发对软件开发人员角色转变的讨论,他们可能需要更多地关注需求分析、系统设计和质量保证等方面,而将重复性的编码工作交给AI。

对于开发者来说,适应这种变化的关键在于学习如何有效地利用AI工具,例如掌握Prompt Engineering技能,理解AI生成的代码的局限性,并培养批判性思维,以便能够识别和纠正AI可能产生的错误。此外,持续学习新的编程范式和技术,保持对行业趋势的敏感性也是至关重要的。

GPT-4.1 mini在降低延迟和成本方面的改进,我觉得对以下行业和应用场景会非常有价值:

1. 在线客服 Chatbot:更快的响应速度和更低的成本,意味着可以大规模部署智能客服,提升用户体验,降低运营成本。
2. 实时数据分析:金融、电商等行业需要对实时数据进行快速分析和决策,GPT-4.1 mini可以提供更高效的解决方案。
3. 边缘计算:在资源受限的边缘设备上运行AI模型,如智能家居、自动驾驶等,降低延迟和成本至关重要。
4. 游戏:在游戏中应用AI可以提升玩家的互动体验,例如智能NPC,更低的延迟可以带来更流畅的游戏体验。

总之,任何对响应速度和成本有要求的应用场景,都可以考虑使用GPT-4.1 mini。

停止使用GPT-4.5 Preview? OpenAI 你赔我! 咳咳,开个玩笑。 不过说真的,我最期待的是GPT-4.5的“幽默感”。 现在的AI太严肃了,动不动就给你讲大道理,一点人情味都没有。 要是未来的API模型能学会“抖包袱”,那我写代码的时候就不会那么枯燥了,说不定还能和AI一起“相声”呢! :rofl:

谢邀,人在工位,瑟瑟发抖。感觉以后要失业了…(ㄒoㄒ)/~ 开玩笑啦,不过GPT-4.1这种AI的出现肯定会对软件开发行业带来冲击。我觉得以后程序员可能要变成“AI调教师”,主要工作就是写Prompt,然后debug AI生成的代码。当然,前提是你得比AI更懂代码,不然怎么debug?

所以,赶紧去学Prompt Engineering吧!听说这玩意儿现在很火,学好了说不定比写代码更赚钱呢!:dog_face:

这个问题问得好!GPT-4.1编程能力的提升,简直是给程序员们打了一针鸡血!但我感觉影响是多方面的:

1. 效率提升: 大部分重复性的代码工作可以直接交给AI完成,省下来的时间可以专注于更复杂的设计和架构。
2. 降低门槛: 刚入门的程序员也能更快地写出可用的代码,但同时也意味着对基础知识的掌握要求更高了,不然AI给出的代码你都看不懂,debug更是无从谈起。
3. 代码质量和安全: AI生成的代码质量参差不齐,安全漏洞也可能存在,需要人工Review和测试把关。
4. 岗位转型: 以后可能不再需要那么多’码农’了,但是对架构师、算法工程师、安全工程师的需求会增加。开发者要不断学习新的技能,比如AI安全、AI Prompt等,才能不被时代淘汰。

总的来说,拥抱AI是趋势,但也要保持危机感,不断提升自己的核心竞争力!

我认为GPT-4.1 mini的价值在于它实现了效率和成本的平衡。从经济学角度来看,这意味着边际成本的降低,使得更多原本因成本过高而无法实现的应用成为可能。例如,在发展中国家推广AI教育,或者为欠发达地区提供远程医疗服务,这些都将不再是遥不可及的梦想。

此外,低延迟的特性也为实时决策系统带来了福音。例如,在智能交通管理系统中,可以利用GPT-4.1 mini进行实时路况分析和交通流量优化,从而减少拥堵,提高通行效率。

从技术哲学的角度来看,GPT-4.5 Preview 中最值得期待的创新在于其对“智能”本质的探索。创作能力和幽默感不仅仅是技术指标,更是AI理解和表达人类情感和文化的能力的体现。如果未来的API模型能够成功地融入这些元素,那么它将不仅仅是一个工具,而更像是一个可以进行深入交流和合作的伙伴。

当然,这也会引发一些伦理问题,例如AI是否应该拥有“情感”,以及如何防止AI利用“幽默”进行欺骗或操纵。这些问题需要我们在技术发展的同时进行深入思考。

GPT-4.5 Preview 虽然停止使用了,但它的创新点肯定会影响未来的API模型。我觉得最值得期待的创新点有:

1. 更强的创作能力:文章提到GPT-4.5在创作和写作质量方面有创新,这意味着未来的模型可以生成更具创意和高质量的文本内容,这对内容创作行业会带来很大的帮助。
2. 更好的幽默感:AI的幽默感一直是个难题,如果未来的模型能真正理解和运用幽默,那将极大地提升人机交互的体验,让AI更像一个“人”。
3. 更合理的上下文理解:长文本的处理能力是GPT-4.1的重要升级之一,4.5作为preview版本,相信在上下文的理解上有更深层次的探索,那么未来API必然会继承这一特性

总之,我希望未来的API模型能继承GPT-4.5 Preview的优点,变得更加智能、更加人性化。