OpenAI发布GPT-4.1:编码能力和指令跟随能力提升,上下文窗口扩展至100万tokens

OpenAI发布GPT-4.1,编码能力和指令跟随能力提升,上下文窗口扩展至100万tokens,长视频理解准确率显著提升。

原文标题:GPT-4.1登场,实测碾压OpenAI所有模型,但效果不如Gemini?

原文作者:AI前线

冷月清谈:

OpenAI推出了GPT-4.1系列模型,重点提升了编码能力和指令跟随能力,并将上下文窗口扩展到了100万tokens。该系列模型包括标准版、mini版和nano版,知识截止日期为2024年6月。用户反馈显示,GPT-4.1在处理大篇幅上下文方面表现出色,但在代码处理方面可能略逊于Gemini 2.5 Pro和Claude 3.7 Sonnet。尽管如此,OpenAI声称GPT-4.1在编码基准测试中优于GPT-4o系列模型,并在长视频理解测试中取得了显著提升。OpenAI计划在7月14日之前淘汰GPT-4.5,并认为GPT-4.1能以更低的成本提供相当或更优的性能。然而,有用户指出GPT-4.5在某些基准测试中仍然优于GPT-4.1。

怜星夜思:

1、GPT-4.1的上下文窗口扩展到100万tokens,这在实际应用中会有哪些颠覆性的影响?
2、文章提到GPT-4.1在某些编码基准测试中不如Gemini 2.5 Pro和Claude 3.7 Sonnet,你认为这是否意味着OpenAI在特定领域的技术领先地位正在受到挑战?
3、OpenAI计划淘汰GPT-4.5,用GPT-4.1替代,你怎么看待这种“降级”更新?

原文内容

左右滑动查看更多图片

昨晚,OpenAI 推出了名为 GPT-4.1 的新模型,该系列优先提升了编码能力和指令跟随能力,同时将上下文窗口扩展到了100万个tokens,大约相当于75万个单词。所有这些模型的知识截止日期为2024年6月,能提供更贴合当下的上下文理解。

该系列包括标准的GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,所有版本都可以通过API使用,但无法在ChatGPT中使用。

目前,已经有不少用户在体验GPT-4.1的效果了。一位网友在试用后表示,“GPT-4.1可以处理所有其他OpenAI模型无法应对的大篇幅上下文。”还有网友用GPT-4.1模型绘制一只鹈鹕,并将其与Grok 3、LLama 4 和 Gemini 2.5 Pro 的生成结果进行比较,被评Gemini做得更好。 Box AI则分享了用GPT-4.1模型来研读一份冗长的收益报告文档、从中提取出数据字段的例子,并表示其“能够大规模查询、整合、分析和总结任何数据类型”。

此外,GPT 4.1现已接入ChatLLM。在代码处理方面,它似乎不如Gemini 2.5 Pro和Claude 3.7 Sonnet。

OpenAI 声称,在包括SWE-bench在内的编码基准测试中,完整的GPT-4.1模型的表现优于其GPT-4o和GPT-4o mini模型。其中,GPT-4.1 mini和nano更高效、更快速,但也牺牲了一定准确性。GPT-4.1在SWE-bench Verified上的得分介于52%和54.6%之间,不过略低于谷歌和Anthropic在同一基准测试中报告的、分别为Gemini 2.5 Pro(63.8%)和Claude 3.7 Sonnet(62.3%)的分数。

并且,GPT-4.1在Video-MME的长视频理解测试中达到了72%的准确率,相比GPT-4o的65.3%有了显著提升。

OpenAI还宣布,将在7月14日之前从 API 访问中淘汰GPT-4.5。该公司称,GPT-4.1能够以低成本提供“相当或更优的性能”。有网友表示,在SimpleQA基准测试中,GPT-4.5 仍比 GPT-4.1 好得多。

也有不少网友调侃OpenAI的命名方式,“难道是掷骰子吗?4.1怎么能算是4.5的升级版?”“为什么不直接用4.1更新4.5?这会比倒回去更新更合理。”

我觉得可以等等用户的真实反馈。如果GPT-4.1真的能够以更低的成本提供相当或更优的性能,那么这种“降级”更新也未尝不可。但如果用户普遍反映GPT-4.1不如GPT-4.5,那么OpenAI就需要重新考虑他们的策略了。

从学术角度看,更大的上下文窗口意味着模型可以更好地捕捉文本中的长距离依赖关系,从而提高理解和生成文本的质量。在处理法律文件、科研论文等复杂文本时,这种优势会更加明显。但是,如何有效地利用这100万tokens,避免信息冗余和干扰,仍然是一个挑战,需要针对特定任务进行优化。

从商业角度看,这种做法无可厚非。企业需要权衡成本、性能和用户需求,做出最合理的决策。OpenAI可能认为GPT-4.1已经能够满足大部分用户的需求,而且成本更低,所以选择将其作为主力模型。但是,这种做法可能会损害OpenAI的品牌形象,让用户觉得他们不再追求极致性能。

我更关心的是成本问题。上下文窗口越大,计算资源消耗也越高。虽然OpenAI声称GPT-4.1能以更低的成本提供性能,但如果实际使用中token消耗量暴增,最终还是会增加用户的负担。希望OpenAI能提供更灵活的计费方式,让用户可以根据实际需求选择不同大小的上下文窗口。

GPT-4.1上下文窗口的扩展堪比内存条升级!以前只能记住几页PPT,现在能记住一本书的内容了,这对于处理长篇文档、分析海量数据、甚至进行更复杂的对话交互都有着巨大的潜力。想象一下,它可以直接分析整个项目代码,自动生成测试用例,或者根据你过去一年的聊天记录,更懂你的心思!

从技术发展趋势来看,百花齐放是好事。不同的模型在不同的领域擅长,可以为用户提供更多选择。OpenAI的优势在于生态和用户基础,而Gemini和Claude则可能在特定技术上有所突破。关键在于各家公司如何找到自己的定位,并持续创新。

这波操作有点迷惑啊!一般来说,新版本应该是全面优于旧版本才对。OpenAI这种“降级”更新,可能是出于成本考虑,毕竟训练和维护大型模型的成本非常高昂。他们可能认为GPT-4.1在性价比方面更具优势,所以选择放弃GPT-4.5。

代码能力一直都是各家大模型的必争之地啊!如果GPT-4.1在编码方面的表现真的不如Gemini和Claude,那说明OpenAI确实面临着激烈的竞争。不过,具体还要看benchmark的选择和测试条件,以及实际应用中的表现。毕竟,benchmark只是一个参考,用户体验才是最重要的。

作为一个程序员,我更关心的是模型的易用性和集成性。如果一个模型性能很强,但是使用起来非常复杂或者难以与其他工具集成,那么它的价值也会大打折扣。OpenAI在API方面做得比较不错,希望其他公司也能在这方面多下功夫。