Claude Opus 4.6 与 GPT-5.3-Codex 同日发布,AI 智能体能力迎来新突破

Anthropic和OpenAI发布新模型:Claude Opus 4.6擅长长文本处理,GPT-5.3-Codex聚焦编码性能,AI模型持续进化。

原文标题:硬碰硬!刚刚,Claude Opus 4.6与GPT-5.3-Codex同时发布

原文作者:机器之心

冷月清谈:

Anthropic和OpenAI相继发布了新一代大模型Claude Opus 4.6和GPT-5.3-Codex。Claude Opus 4.6拥有100万token上下文窗口,并引入了“智能体团队”功能,在多项评估中表现出色,尤其在处理长文本和复杂任务方面。OpenAI的GPT-5.3-Codex则专注于编码性能的提升,在多个基准测试中刷新纪录,并具备更强的交互性,旨在成为开发人员的智能工作助理。两者都在努力提升模型在实际工作场景中的应用能力,将AI从单纯的代码编写工具转变为能够支持软件生命周期中各个环节的智能体,未来人与AI的协作模式将会发生转变。

怜星夜思:

1、Claude Opus 4.6的百万token上下文窗口和GPT-5.3-Codex的编码性能提升,你认为哪个对未来的AI应用场景影响更大? 为什么?
2、Anthropic用16个智能体从零开始构建C语言编译器,并成功编译Linux内核,这给你带来了哪些启发?你觉得未来程序员的角色会发生哪些变化?
3、OpenAI 强调GPT-5.3-Codex的交互性,并允许用户实时互动、提出问题和探索解决方案,你认为这种交互方式对AI的应用和发展有哪些积极意义?又可能带来哪些挑战?

原文内容

图片
机器之心编辑部

在春节来临之前,海外大模型先来了一波硬碰硬的发布。


北京时间 2 月 6 日凌晨,Anthropic 与 OpenAI 相继推出了新版本基础大模型,分别是 Claude Opus 4.6 与 GPT-5.3-Codex。




昨天两家还在因为 AI 里面的广告而论战,今天在大模型发布上又撞车了。话不多说,直接看他们的模型能力如何。


Claude Opus 4.6


Claude Opus 4.6 是 Anthropic 对其旗舰人工智能模型的一次重大升级。在这代模型上,规划更加谨慎,能够维持更长时间的自主工作流程,并在关键的企业基准测试中超越了包括 GPT-5.2 在内的竞争对手。



新模型首次拥有 100 万 token 的上下文窗口,使 AI 能够处理和推理比以往版本多得多的信息。Anthropic 还在 Claude Code 中引入了类似于 Kimi K2.5 的「智能体团队」功能 —— 一项研究预览功能,它允许多个 AI 智能体同时处理编码项目的不同方面,并进行自主协调。


Anthropic 强调,Opus 4.6 可将其增强的功能应用于一系列日常工作任务,包括运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。现在在 Cowork 环境中,Claude 可以自主地执行多任务,Opus 4.6 可以代表人类运用所有这些技能。


Opus 4.6 在多项评估中均表现出色。例如,它在智能体编码评估工具 Terminal-Bench 2.0 中取得了最高分,并在「人类最后的考试」(一项复杂的多学科推理测试)中领先于所有其他前沿模型。在 GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中, Opus 4.6 的表现比业界次优模型(OpenAI 的 GPT-5.2)高出约 144 个 Elo 分数,比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在 BrowseComp 测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力。



Claude Opus 4.6 现已在 claude.ai、API 以及所有主流云平台上线,定价保持不变,每百万 token 5 美元 / 25 美元。


目前大模型的一个常见问题是「上下文腐烂」,即当对话 token 数量超过一定阈值时,模型性能会下降。Opus 4.6 的性能显著优于其前代产品:在 MRCR v2 的 8 针 1M 变体测试中(该测试如同大海捞针),Opus 4.6 的得分为 76%,而 Sonnet 4.5 的得分仅为 18.5%。这标志着模型在保持最佳性能的同时,能够利用的上下文信息量发生了质的飞跃。


为了证明 Opus 4.6 的强大智能体能力,Anthropic 的一名研究员使用 16 个智能体从零开始构建了一个基于 Rust 的 C 语言编译器,设定任务后就基本放手不管了。最后 AI 输出的代码长达 10 万行,可以编译 Linux 内核,耗资 2 万美元,超过 2000 次 Claude Code 会话,历时两周。



该编译器可以在 x86、ARM 和 RISC-V 上构建可启动的 Linux 6.9,它通过了 GCC 99% 的压力测试,可以编译 FFmpeg、Redis、PostgreSQL、QEMU,还通过了开发者的终极考验:编译并运行了 Doom 游戏。


该编译器的代码:https://github.com/anthropics/claudes-c-compiler



虽然没有人类参与编写代码,但研究人员不断重新设计测试,在智能体程序互相干扰时构建 CI 管道,并在所有 16 个智能体程序都卡在同一个 bug 时创建变通方法。


看起来,在未来加入 AI 的工作流程中,人的角色已经从编写代码转变为构建让 AI 能够编写代码的环境。


GPT-5.3-Codex


在 OpenAI 这边,新一代模型 GPT-5.3-Codex 的发布紧随其后。奥特曼称其拥有目前最佳的编码性能,进一步释放了 Codex 的潜能。


GPT-5.3-Codex 在多项基准上刷新纪录:在 SWE-Bench Pro 上达到 56.8%,在 Terminal-Bench 2.0 上达到 77.3%,同时相比此前版本运行更快、消耗的 token 更少。





OpenAI 表示,该模型融合了 GPT-5.2-Codex 的前沿编码性能和 GPT-5.2 的推理及专业知识能力,速度提升了 25%。这使其能够胜任需要研究、工具使用和复杂执行的长时间任务。


它就像一位真正的同事一样,你可以在 GPT-5.3-Codex 工作时对其进行指导和交互,而不会丢失上下文信息。借助 GPT-5.3-Codex,Codex 从一个能够编写和审查代码的代理,变成了一个几乎可以执行开发人员和专业人士在计算机上的任何操作的代理。


除了更加强大的编码能力外,GPT-5.2-Codex 在 OpenAI 长期关注的美学方面又一次有了长足的进步。


在这次发布中,OpenAI 让 GPT-5.3-Codex 构建了两款游戏:一款是 Codex 应用发布时推出的赛车游戏的第二版,另一款是潜水游戏。


图片


图片


OpenAI 表示,GPT-5.3-Codex 利用其网页游戏开发技能以及预先设定的通用后续提示(例如「修复错误」或「改进游戏」),自主地迭代开发了数百万个 token。


这次发布的 GPT-5.3-Codex ,OpenAI 对其的期望远不止步于一个智能编码模型,而是一个能够「Beyond coding」,实现工作助理的智能体。


GPT-5.3-Codex 能够支持软件生命周期中的所有工作 —— 调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标分析等等。


GPT-5.3-Codex 输出净值分析表格示例


OpenAI 认为,随着模型能力的不断增强,差距不再仅仅在于智能体能够做什么,而是在于人类如何轻松地与多个并行工作的智能体进行交互、指导和监督。鉴于此,Codex 应用可以让管理和指导智能体变得更加便捷,而 GPT-5.3-Codex 的加入更使其交互性更强。


借助新模型,Codex 会频繁更新,让你随时了解关键决策和进展。人们无需等待最终输出,即可实时互动 —— 提出问题、讨论方法,并共同探索解决方案。GPT-5.3-Codex 会语音播报其运行过程,响应反馈,并让你从始至终掌握整个流程。


最后,OpenAI 表示,GPT-5.3-Codex 的训练和部署使用了 Codex,OpenAI 的许多研究人员和工程师都表示,他们现在的工作与两个月前相比发生了根本性的变化。


例如,研究团队使用 Codex 来监控和调试本次版本的训练运行。它不仅加速了基础设施问题的调试,还帮助追踪整个训练过程中的模式,对交互质量进行深入分析,提出修复方案,并构建了丰富的应用程序,使研究人员能够精确地了解模型行为与先前模型之间的差异。


工程团队使用 Codex 对 GPT-5.3-Codex 框架进行了优化和适配。当出现影响用户的异常极端情况时,团队成员利用 Codex 识别上下文渲染错误,并找出缓存命中率低的根本原因。在整个发布过程中,GPT-5.3-Codex 通过动态扩展 GPU 集群来应对流量高峰并保持延迟稳定,持续为团队提供支持。


在 Alpha 测试期间,一位研究人员想要了解 GPT-5.3-Codex 每回合能完成多少额外工作,以及由此带来的生产力提升。GPT-5.3-Codex 生成了几个简单的正则表达式分类器,用于估算用户澄清请求的频率、正面和负面反馈以及任务进度,然后将这些分类器可扩展地应用于所有会话日志,并生成一份包含结论的报告。


GPT-5.3-Codex 已包含在 ChatGPT 的付费套餐中,但 API 还需要等待一段时间。


OpenAI 报告说,由于基础设施和推理堆栈的改进,Codex 用户现在运行 GPT-5.3-Codex 的速度也提高了 25%,从而实现了更快的交互和更快的结果。


结语


海外的大模型已经轮番上阵,在春节前的最后这几天,国内大模型也必然会卷起来,包括 DeepSeek v4 也许即将到来。



你期待住了吗?


参考内容:

https://www.anthropic.com/news/claude-opus-4-6

https://www.anthropic.com/engineering/building-c-compiler

https://openai.com/index/introducing-gpt-5-3-codex/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得这更像是一种进阶!以后可能没有纯粹的coder了,大家都要变成AI调教员,prompt写得好不好直接决定了你的竞争力。所以,赶紧开始学习prompt engineering吧!

这个问题很有意思!除了大海捞针这种benchmark,百万token上下文窗口感觉在处理法律文档、大型金融报告、以及复杂的医学研究数据分析上可能会有质的飞跃。想想,AI可以直接消化一整个案件的所有卷宗材料,自动提取关键证据和矛盾点,这效率提升可不是一点半点。当然,也需要关注这么长的上下文会不会导致模型“走神”,需要有相应的机制来保证输出质量。

谢邀,人在工位上,刚用AI写完bug…开个玩笑。 但是不得不承认,AI 正在改变我们的工作方式。它就像一把双刃剑,一方面可以提高工作效率,另一方面也可能会取代一部分重复性的工作。程序员需要做的就是拥抱变化,不断学习新的技能,才能在未来的职场中保持竞争力。与其担心被 AI 取代,不如思考如何利用 AI 来提升自己的价值。

这种交互方式简直太棒了!它让AI从一个黑盒变成了一个透明的、可解释的工具。用户可以随时了解AI的思考过程,并及时纠正错误。这不仅可以提高AI的效率,还可以增强用户对AI的信任感。不过,这种交互方式也可能会带来一些挑战,比如如何保证交互的实时性?如何避免用户过度干预AI的决策?

这种交互方式让我想起了“涌现”这个概念。当用户不断地与AI互动时,AI可能会涌现出一些意想不到的能力。比如,用户可能会发现一些AI的潜在应用场景,或者提出一些新的需求,从而推动AI的进一步发展。但同时,我们也需要警惕AI的潜在风险,比如AI可能会被用于恶意目的,或者产生一些不符合伦理道德的行为。

这说明AI已经具备了自主完成复杂工程的能力。但也别忘了,过程中仍然需要研究人员不断重新设计测试,构建CI管道,甚至为bug创建变通方法。这意味着,人类的创造性思维和解决问题的能力仍然是不可或缺的。未来的程序员可能更需要具备系统设计、架构规划、以及问题诊断的能力,而不是单纯的编码技巧。

小朋友才做选择,大人当然是都要!上下文窗口和编码能力都很重要。但我觉得更关键的是,这两个模型都在朝着“智能体”的方向发展。这意味着AI不再是简单的工具,而是能够自主思考、自主行动的“伙伴”。想象一下,未来的程序员可能只需要告诉AI需求,剩下的就交给AI自己去完成,这才是真正的生产力革命。

我认为这种交互方式是AI走向普及的关键。现在的AI还不够“人性化”,很多用户不知道如何使用它。而这种交互方式可以让用户像和同事一样与AI沟通,从而降低使用门槛,吸引更多人使用AI。当然,这也意味着我们需要在用户体验上下更多功夫,比如优化语音交互、改进反馈机制等。

这事儿简直太疯狂了!启发就是:AI真的要抢程序员饭碗了! 不过,也不必过于悲观。未来程序员的角色可能会从“代码工人”变成“AI指挥家”。我们需要学习如何更好地与AI协作,如何设计任务、评估结果、以及在AI出现bug时进行干预。总的来说,程序员的门槛可能会提高,但机会也会更多。

这件事让我想到了“忒修斯之船”的悖论:如果一艘船的每个部件都被逐渐替换,那么它还是原来的船吗?当AI完全接管代码编写工作时,程序员还是程序员吗?我觉得,未来的程序员更像是“AI训练师”,我们需要不断地训练AI,让它更好地理解我们的需求,更好地完成我们的任务。这需要我们具备更强的抽象思维、沟通能力和领域知识。

我觉得Claude Opus 4.6的超大上下文窗口更关键。现在很多大模型都面临“上下文腐烂”的问题,Opus 4.6在这方面有明显改善,这意味着它可以更好地理解和处理复杂的、多步骤的任务,甚至能够完成类似“大海捞针”的挑战。这对需要处理大量信息、进行深度推理的应用场景(比如法律、金融、科研)来说至关重要。想象一下,你可以直接把一整本法律书籍“喂”给AI,让它帮你查找相关案例,这效率提升可不是一星半点。