OpenAI发布GPT-4.1系列模型,性能大幅提升,尤其在编程、指令执行和长文本理解上超越GPT-4o,并针对不同应用场景优化了成本和延迟。
原文标题:OpenAI发布GPT-4.1系列模型,性能大幅提升,碾压4o
原文作者:图灵编辑部
冷月清谈:
怜星夜思:
2、GPT-4.1 mini 在降低延迟和成本方面做了很大改进,这对哪些行业或应用场景最有价值?
3、OpenAI 停止使用 GPT-4.5 Preview,并将相关创新融入未来的 API 模型中,你觉得 GPT-4.5 Preview 中哪些创新最值得期待?
原文内容
-
编程能力:GPT-4.1 在 SWE-bench Verified 基准测试中的得分达到了 54.6%,相比 GPT-4o 提升了 21.4%,超过 GPT-4.5 则提高了 26.6%。这一成绩使其成为目前编程领域的领先 AI 模型,特别适用于需要高精度代码生成和错误修正的场景。
-
指令执行能力:在 Scale 的 MultiChallenge 基准测试中,GPT-4.1 的得分为 38.3%,较 GPT-4o 提高了 10.5%。这一改进意味着 GPT-4.1 在理解和执行复杂指令上的能力得到了显著增强,能够更好地处理多样化的任务需求。
-
长文本理解:GPT-4.1 在 Video-MME 基准测试中表现出色,在“长无字幕”类别中取得了 72.0% 的得分,较 GPT-4o 提高了 6.7%。这一进步表明,GPT-4.1 在理解长文本内容方面具有更高的精确度,特别是在需要理解多重上下文信息的任务中表现尤为突出。
根据不同的应用场景,GPT-4.1 系列还推出了适用于不同任务需求的变种模型,进一步提升了 AI 在低延迟、高性能任务中的表现:
-
GPT-4.1 mini:GPT-4.1 mini 相比 GPT-4o 在多个基准测试中表现优异,同时将延迟减少了近 50%, 成本降低了 83%。它不仅保持了和 GPT-4o 相当的智能水平,还提供了更低的响应时间和更高的性价比,特别适合需要快速响应的任务,如实时数据处理和低延迟计算任务。
-
GPT-4.1 nano:作为最小的模型,GPT-4.1 nano 是专为低延迟和低成本需求设计的 AI 模型。它在 MMLU 上得分 80.1%,在 GPQA 上得分 50.3%,在 Aider polyglot coding 上得分 9.8%,这些成绩均优于GPT-4o mini。GPT-4.1 nano适用于分类、自动补全等任务,尤其是在计算资源有限的环境中,它依然能够提供卓越的性能。
GPT-4.1 输入/输出费用为每百万 token 2 美元和 8 美元,较 GPT-4o 便宜 26%。提示词缓存折扣提高至 75%,长上下文无额外费用。
叶文滔 | 译
GitHub 项目 LLMs-from-scratch(star数44k)作者、大模型独角兽公司 Lightning AI 工程师倾力打造,全书采用独特的一问一答式风格,探讨了当今机器学习和人工智能领域中最重要的 30 个问题,旨在帮助读者了解最新的技术进展。
覃立波,冯骁骋,刘乾 | 译
全网疯传的大模型教程,由畅销书作家塞巴斯蒂安•拉施卡撰写,通过清晰的文字、图表和实例,逐步指导读者创建自己的大模型。
在本书中,读者将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练,以及定制特定任务的微调。此外,本书还将探讨如何利用人工反馈确保大模型遵循指令,以及如何将预训练权重加载到大模型中。还有惊喜彩蛋 DeepSeek,作者深入解析构建与优化推理模型的方法和策略。
《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》
奥利维耶·卡埃朗,[法] 玛丽–艾丽斯·布莱特 | 著
深受读者喜爱的大模型应用开发图书升级版,作者为初学者提供了一份清晰、全面的“最小可用知识”,带领你快速了解 GPT-4 和 ChatGPT 的工作原理及优势,并在此基础上使用流行的 Python 编程语言构建大模型应用。
升级版在旧版的基础上进行了全面更新,融入了大模型应用开发的最新进展,比如 RAG、GPT-4 新特性的应用解析等。随书赠 DeepSeek × Dify 应用开发案例,书中还提供了大量简单易学的示例,帮你理解相关概念并将其应用在自己的项目中。