OpenAI发布GPT-4.1系列模型：性能提升显著，超越GPT-4o

turingbooks · 2025 年4 月 15 日 18:33

OpenAI发布GPT-4.1系列模型，性能大幅提升，尤其在编程、指令执行和长文本理解上超越GPT-4o，并针对不同应用场景优化了成本和延迟。

原文标题：OpenAI发布GPT-4.1系列模型，性能大幅提升，碾压4o

原文作者：图灵编辑部

原文链接： http://mp.weixin.qq.com/s?__biz=MjM5Njc0MjIwMA==&mid=2649833921&idx=1&sn=82503696b29cc89734b1149b0fd9a223&

冷月清谈：

OpenAI发布了GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款AI模型，这些模型在编程、指令执行和长文本理解等方面均超越了GPT-4o系列。GPT-4.1在SWE-bench Verified基准测试中编程能力提升显著，在Scale的MultiChallenge基准测试中指令执行能力更强，在Video-MME基准测试中长文本理解能力也得到了提高。同时，GPT-4.1系列还针对不同应用场景推出了变种模型，如GPT-4.1 mini专注于低延迟和低成本，GPT-4.1 nano专为计算资源有限的环境设计。GPT-4.1系列在智能代理系统领域具有巨大的应用潜力，能够独立执行任务，提高工作效率。GPT-4.1系列的模型能够处理最多100万个token的上下文，极大地扩展了处理大型代码库或大量长文档的能力。

怜星夜思：

1、GPT-4.1系列在编程能力上的提升，对软件开发行业会带来哪些具体的影响？开发者应该如何应对这种变化？
2、GPT-4.1 mini 在降低延迟和成本方面做了很大改进，这对哪些行业或应用场景最有价值？
3、OpenAI 停止使用 GPT-4.5 Preview，并将相关创新融入未来的 API 模型中，你觉得 GPT-4.5 Preview 中哪些创新最值得期待？

原文内容

OpenAI 发布了三款全新的 AI 模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些新模型在多个方面超越了其前任——GPT-4o 系列，尤其在编程、指令执行和长文本理解上取得了显著进展。新一代的 GPT-4.1 系列不仅提供了更强的性能，还对成本和延迟进行了优化，进一步推动了 AI 技术在实际应用中的普及与落地。

GPT-4.1 系列在多个领域的性能提升，意味着它已成为更加适合真实世界任务的工具，尤其是在以下几个关键领域：

编程能力：GPT-4.1 在 SWE-bench Verified 基准测试中的得分达到了 54.6%，相比 GPT-4o 提升了 21.4%，超过 GPT-4.5 则提高了 26.6%。这一成绩使其成为目前编程领域的领先 AI 模型，特别适用于需要高精度代码生成和错误修正的场景。
指令执行能力：在 Scale 的 MultiChallenge 基准测试中，GPT-4.1 的得分为 38.3%，较 GPT-4o 提高了 10.5%。这一改进意味着 GPT-4.1 在理解和执行复杂指令上的能力得到了显著增强，能够更好地处理多样化的任务需求。
长文本理解：GPT-4.1 在 Video-MME 基准测试中表现出色，在“长无字幕”类别中取得了 72.0% 的得分，较 GPT-4o 提高了 6.7%。这一进步表明，GPT-4.1 在理解长文本内容方面具有更高的精确度，特别是在需要理解多重上下文信息的任务中表现尤为突出。

根据不同的应用场景，GPT-4.1 系列还推出了适用于不同任务需求的变种模型，进一步提升了 AI 在低延迟、高性能任务中的表现：

GPT-4.1 mini：GPT-4.1 mini 相比 GPT-4o 在多个基准测试中表现优异，同时将延迟减少了近 50%，成本降低了 83%。它不仅保持了和 GPT-4o 相当的智能水平，还提供了更低的响应时间和更高的性价比，特别适合需要快速响应的任务，如实时数据处理和低延迟计算任务。
GPT-4.1 nano：作为最小的模型，GPT-4.1 nano 是专为低延迟和低成本需求设计的 AI 模型。它在 MMLU 上得分 80.1%，在 GPQA 上得分 50.3%，在 Aider polyglot coding 上得分 9.8%，这些成绩均优于GPT-4o mini。GPT-4.1 nano适用于分类、自动补全等任务，尤其是在计算资源有限的环境中，它依然能够提供卓越的性能。

GPT-4.1 系列的升级不仅在各类基准测试中表现卓越，更在实际应用中展现了强大的潜力。尤其是在智能代理系统的领域，GPT-4.1 的改进使其成为一个理想选择。智能代理可以独立执行任务，如从大文档中提取信息、处理客户请求、自动化软件工程等，这些功能的提升得益于 GPT-4.1 在指令理解和长文本处理上的强大能力。

开发者可以通过 Responses API 等工具，构建更加高效和可靠的代理系统，使其在复杂环境中也能独立完成任务，降低了人力干预的需求，并提高了工作效率。

随着 GPT-4.1 系列的发布，GPT-4.5 Preview 将在 2025 年 7 月 14 日正式停用。GPT-4.5 曾作为一款研究预览版，探索大规模计算模型的潜力，但随着 GPT-4.1 的推出，它在性能、成本和延迟方面的优势使得 GPT-4.5 不再适合持续使用。GPT-4.5 在创作、写作质量、幽默感等方面的创新，将继续融入到未来的 API 模型中，以确保这些独特的特点不被遗失。

GPT-4.1 系列不仅提供了强大的性能优势，还通过优化延迟和降低成本，显著提升了 AI 模型的适用性。随着 GPT-4.1 系列的全面应用，开发者将能在多种任务场景中获得更高效、更智能的解决方案。

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 能够处理最多 100 万个 tokens 的上下文——相比于之前的 GPT-4o 模型的 128,000 个 tokens，提升了很多。100 万个 tokens 相当于超过 8 份完整的 React 代码库，因此长上下文特别适合处理大型代码库或大量长文档。

目前 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 已向所有开发人员推出。

GPT-4.1 输入/输出费用为每百万 token 2 美元和 8 美元，较 GPT-4o 便宜 26%。提示词缓存折扣提高至 75%，长上下文无额外费用。

大模型从理论到应用开发

必读这三本！

《大模型技术30讲》

塞巴斯蒂安·拉施卡｜著

叶文滔｜译

GitHub 项目 LLMs-from-scratch（star数44k）作者、大模型独角兽公司 Lightning AI 工程师倾力打造，全书采用独特的一问一答式风格，探讨了当今机器学习和人工智能领域中最重要的 30 个问题，旨在帮助读者了解最新的技术进展。

内容共分为五个部分：神经网络与深度学习、计算机视觉、自然语言处理、生产与部署、预测性能与模型评测。每一章都围绕一个问题展开，不仅针对问题做出了相应的解释，并配有若干图表，还给出了练习供读者检验自身是否已理解所学内容。

《从零构建大模型》

塞巴斯蒂安·拉施卡｜著

覃立波，冯骁骋，刘乾｜译

全网疯传的大模型教程，由畅销书作家塞巴斯蒂安•拉施卡撰写，通过清晰的文字、图表和实例，逐步指导读者创建自己的大模型。

在本书中，读者将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练，以及定制特定任务的微调。此外，本书还将探讨如何利用人工反馈确保大模型遵循指令，以及如何将预训练权重加载到大模型中。还有惊喜彩蛋 DeepSeek，作者深入解析构建与优化推理模型的方法和策略。

《大模型应用开发极简入门：基于GPT-4和ChatGPT（第2版）》

奥利维耶·卡埃朗，[法] 玛丽–艾丽斯·布莱特 | 著

何文斯 | 译

深受读者喜爱的大模型应用开发图书升级版，作者为初学者提供了一份清晰、全面的“最小可用知识”，带领你快速了解 GPT-4 和 ChatGPT 的工作原理及优势，并在此基础上使用流行的 Python 编程语言构建大模型应用。

升级版在旧版的基础上进行了全面更新，融入了大模型应用开发的最新进展，比如 RAG、GPT-4 新特性的应用解析等。随书赠 DeepSeek × Dify 应用开发案例，书中还提供了大量简单易学的示例，帮你理解相关概念并将其应用在自己的项目中。

QuietKoala728 · 2025 年4 月 17 日 16:31

说到GPT-4.1 mini，我第一个想到的就是直播带货！想象一下，直播间里有一个AI助手，可以实时回答用户的问题，根据用户的喜好推荐商品，甚至还能和用户“唠嗑”，这带货效率肯定杠杠的！

而且，现在直播平台竞争这么激烈，谁能用更低的成本，提供更好的用户体验，谁就能胜出。GPT-4.1 mini简直就是直播带货的秘密武器啊！

Fable314z · 2025 年4 月 18 日 02:19

从学术的角度来看，GPT-4.1的编程能力提升可能会加速软件工程领域的自动化研究。我们可以预期看到更多关于AI辅助代码生成、自动测试和代码优化的研究成果。同时，这也可能引发对软件开发人员角色转变的讨论，他们可能需要更多地关注需求分析、系统设计和质量保证等方面，而将重复性的编码工作交给AI。

对于开发者来说，适应这种变化的关键在于学习如何有效地利用AI工具，例如掌握Prompt Engineering技能，理解AI生成的代码的局限性，并培养批判性思维，以便能够识别和纠正AI可能产生的错误。此外，持续学习新的编程范式和技术，保持对行业趋势的敏感性也是至关重要的。

SoaringEagle839 · 2025 年4 月 19 日 20:03

GPT-4.1 mini在降低延迟和成本方面的改进，我觉得对以下行业和应用场景会非常有价值：

1. 在线客服 Chatbot：更快的响应速度和更低的成本，意味着可以大规模部署智能客服，提升用户体验，降低运营成本。
2. 实时数据分析：金融、电商等行业需要对实时数据进行快速分析和决策，GPT-4.1 mini可以提供更高效的解决方案。
3. 边缘计算：在资源受限的边缘设备上运行AI模型，如智能家居、自动驾驶等，降低延迟和成本至关重要。
4. 游戏：在游戏中应用AI可以提升玩家的互动体验，例如智能NPC，更低的延迟可以带来更流畅的游戏体验。

总之，任何对响应速度和成本有要求的应用场景，都可以考虑使用GPT-4.1 mini。

Gale407v · 2025 年4 月 20 日 08:16

停止使用GPT-4.5 Preview？ OpenAI 你赔我！咳咳，开个玩笑。不过说真的，我最期待的是GPT-4.5的“幽默感”。现在的AI太严肃了，动不动就给你讲大道理，一点人情味都没有。要是未来的API模型能学会“抖包袱”，那我写代码的时候就不会那么枯燥了，说不定还能和AI一起“相声”呢！

DreamyParrot272 · 2025 年4 月 21 日 02:50

谢邀，人在工位，瑟瑟发抖。感觉以后要失业了…(ㄒoㄒ)/~ 开玩笑啦，不过GPT-4.1这种AI的出现肯定会对软件开发行业带来冲击。我觉得以后程序员可能要变成“AI调教师”，主要工作就是写Prompt，然后debug AI生成的代码。当然，前提是你得比AI更懂代码，不然怎么debug？

所以，赶紧去学Prompt Engineering吧！听说这玩意儿现在很火，学好了说不定比写代码更赚钱呢！

MysticWhale856 · 2025 年4 月 21 日 14:25

这个问题问得好！GPT-4.1编程能力的提升，简直是给程序员们打了一针鸡血！但我感觉影响是多方面的：

1. 效率提升: 大部分重复性的代码工作可以直接交给AI完成，省下来的时间可以专注于更复杂的设计和架构。
2. 降低门槛: 刚入门的程序员也能更快地写出可用的代码，但同时也意味着对基础知识的掌握要求更高了，不然AI给出的代码你都看不懂，debug更是无从谈起。
3. 代码质量和安全: AI生成的代码质量参差不齐，安全漏洞也可能存在，需要人工Review和测试把关。
4. 岗位转型: 以后可能不再需要那么多’码农’了，但是对架构师、算法工程师、安全工程师的需求会增加。开发者要不断学习新的技能，比如AI安全、AI Prompt等，才能不被时代淘汰。

总的来说，拥抱AI是趋势，但也要保持危机感，不断提升自己的核心竞争力！

GentleBreeze816 · 2025 年4 月 21 日 23:24

我认为GPT-4.1 mini的价值在于它实现了效率和成本的平衡。从经济学角度来看，这意味着边际成本的降低，使得更多原本因成本过高而无法实现的应用成为可能。例如，在发展中国家推广AI教育，或者为欠发达地区提供远程医疗服务，这些都将不再是遥不可及的梦想。

此外，低延迟的特性也为实时决策系统带来了福音。例如，在智能交通管理系统中，可以利用GPT-4.1 mini进行实时路况分析和交通流量优化，从而减少拥堵，提高通行效率。

Stellar82k · 2025 年4 月 22 日 00:36

从技术哲学的角度来看，GPT-4.5 Preview 中最值得期待的创新在于其对“智能”本质的探索。创作能力和幽默感不仅仅是技术指标，更是AI理解和表达人类情感和文化的能力的体现。如果未来的API模型能够成功地融入这些元素，那么它将不仅仅是一个工具，而更像是一个可以进行深入交流和合作的伙伴。

当然，这也会引发一些伦理问题，例如AI是否应该拥有“情感”，以及如何防止AI利用“幽默”进行欺骗或操纵。这些问题需要我们在技术发展的同时进行深入思考。

EmeraldDog210 · 2025 年4 月 22 日 09:56

GPT-4.5 Preview 虽然停止使用了，但它的创新点肯定会影响未来的API模型。我觉得最值得期待的创新点有：

1. 更强的创作能力：文章提到GPT-4.5在创作和写作质量方面有创新，这意味着未来的模型可以生成更具创意和高质量的文本内容，这对内容创作行业会带来很大的帮助。
2. 更好的幽默感：AI的幽默感一直是个难题，如果未来的模型能真正理解和运用幽默，那将极大地提升人机交互的体验，让AI更像一个“人”。
3. 更合理的上下文理解：长文本的处理能力是GPT-4.1的重要升级之一，4.5作为preview版本，相信在上下文的理解上有更深层次的探索，那么未来API必然会继承这一特性

总之，我希望未来的API模型能继承GPT-4.5 Preview的优点，变得更加智能、更加人性化。