Anthropic 发布 Claude 4:编码与推理能力再升级,自主编码长达7小时

Anthropic 发布 Claude 4,编码能力大幅提升,自主运行可达7小时,与OpenAI和Google等公司展开激烈竞争。

原文标题:全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug

原文作者:AI前线

冷月清谈:

Anthropic 发布了 Claude 4 系列模型,包含 Claude Opus 4 和 Claude Sonnet 4 两个型号,旨在提升编码、高级推理和 AI 代理的能力。Opus 4 被认为是目前最强大的 AI 模型,在编码任务和使用网络搜索工具方面优于谷歌的 Gemini 2.5 Pro 和 OpenAI 的 GPT-4.1。它能够自主运行 7 小时,并创建和维护“内存文件”以提升代理在长期任务中的感知能力。Sonnet 4 则是一款更经济高效的型号,适用于常规任务,并在 SWE-bench 上实现了 72.7% 的编码效率。此外,Anthropic 还发布了 Claude Code agentic 命令行工具,集成了 GitHub Actions、VS Code 和 JetBrains,以扩展开发者与 Claude 的协作方式。这些更新标志着 AI 领域竞争的加剧,各家公司都在不断推出更强大的模型,以满足企业客户对特定用例的需求。

怜星夜思:

1、文中提到 Claude Opus 4 可以连续自主运行 7 小时,这对哪些领域的应用场景会带来颠覆性的影响?
2、Anthropic 强调 Claude 4 将工具的使用直接融入推理过程,这种方法与传统的 AI 模型相比有哪些优势和局限?
3、文章提到多家公司都在发力推理模型,并认为这将是未来的趋势,你认为推理模型会在哪些方面改变我们与 AI 的互动方式?

原文内容

 

作者 | 冬梅
Claude 4 系列模型发布,编码、推理能力更上一步

昨天夜里,在 Anthropic 的首届开发者大会上,Anthropic CEO Dario Amodei 宣布 Claude 4 正式发布。

该系列模型下共有两个型号:Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI 代理设定新的标准。

Dario 表示,Claude Opus 4 是该公司迄今为止最强大的 AI 模型,能够连续“数小时”处理长时间运行的任务。

Dario 示,在客户测试中,Opus 4 可以自主运行 7 个小时,显著扩展了 AI 代理的可能性。该公司还将其新旗舰产品描述为“世界上最好的编码模型”,Anthropic 的基准测试显示,Opus 4 在编码任务和使用网络搜索等“工具”方面的表现优于谷歌的 Gemini 2.5 Pro、OpenAI 的 o3 推理和 GPT-4.1 模型。

Claude Opus 4 也是全球最佳的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均领先。

Claude Opus 4 擅长编码和解决复杂问题,为前沿代理产品提供动力。Cursor 称其为编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。Replit 报告称,其跨多个文件的复杂更改的精度和显著改进。

除了模型方面的改进外,Claude Opus 4 在内存能力方面也显著超越了所有前代型号。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如,Opus 4 在玩宝可梦时能够创建“导航指南”。

Claude Sonnet 4 是一款更经济实惠、更注重效率的型号,更适合执行常规任务,它取代了 2 月份发布的 3.7 Sonnet 型号。Dario 表示,Sonnet 4 提供“卓越的编码和推理能力”,同时提供更精确的响应。他补充说,与 3.7 Sonnet 相比,这两款型号在完成任务时走捷径和钻空子的可能性降低了 65%,而且当开发人员为 Claude 提供本地文件访问权限时,它们能够更好地存储长期任务的关键信息。

Claude Sonnet 4 在 Sonnet 3.7 业界领先的功能基础上进行了显著提升,在 SWE-bench 上实现了 72.7% 的出色编码效率。该模型在内部和外部用例的性能和效率之间取得了平衡,并增强了可控性,从而更好地控制实现。虽然在大多数领域都无法与 Opus 4 匹敌,但它实现了功能和实用性的最佳结合。

GitHub 表示,Claude Sonnet 4 在代理场景中表现出色,并将作为 GitHub Copilot 中新编码代理的基础模型引入。

Manus 强调了其在执行复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 在自主多功能应用程序开发方面表现出色,并显著改进了问题解决和代码库导航能力,将导航错误率从 20% 降至接近零。

Sourcegraph 表示,该模型有望成为软件开发的一大飞跃——能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称其成功率更高,代码编辑更精准,复杂任务的处理也更加细致,使其成为其主要模型的首选。

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深层次推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 套餐包含两种模型和扩展思维,Sonnet 4 也面向免费用户开放。

两种模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 token(输入 / 输出)15~75 美元,Sonnet 4 为 3~15 美元。

模型之外,Claude Code 已发布

除了新模型外,Anthropic 的 Claude Code agentic 命令行工具在 2 月份有限预览后现已正式发布。

Anthropic 表示,在研究预览期间收到大量积极反馈后,Anthropic 正在扩展开发者与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 原生集成,可直接在文件中显示编辑内容,实现无缝的结对编程。

Anthropic 还表示,为了应对来自 OpenAI、谷歌和 Meta 的竞争,该公司正在转型,提供“更频繁的模型更新”。

Anthropic 的其他更新还包括:

  • 使用工具进行扩展思考(测试版)
    :两种模型都可以在扩展思考过程中使用工具(例如网络搜索),从而使 Claude 能够在推理和工具使用之间交替进行以改善响应。
  • 两种模型都可以并行使用工具,更精确地遵循指令
    ,并且当开发人员授予其访问本地文件的权限时,可以显著提高记忆能力,提取和保存关键事实以保持连续性并随着时间的推移建立隐性知识。
  • 新的 API 功能
    :Anthropic 在 Anthropic API 上发布了四项新功能,使开发人员能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、文件 API 以及将提示缓存长达一小时的能力。

Anthropic 上周确认,其第一季度年化营收达到 20 亿美元,较上一季度的 10 亿美元增长了一倍多。该公司营收主管凯特·詹森 (Kate Jensen) 最近接受 CNBC 采访时表示,Anthropic 年度消费超过 10 万美元的客户数量较去年同期增长了八倍。

华尔街继续向 Anthropic 等人工智能初创公司投入资金:该公司上周获得了 25 亿美元的五年期循环信贷额度,以增强其在不断扩大且昂贵的人工智能竞争中的流动性。

网友实测:很强大

Claude 4 的发布在社交平台上引发了诸多关注。有网友第一时间进行了实测,随后表示,

“Claude 4 强大到令人发指!我就输入一句‘给我做个 CRM 仪表盘’的指令,它 30 秒就搞定了,我整个人都惊呆了!!”

另一位第一时间实测了 Claude 4 的网友表示,这编码能力绝对要远远优于 3.5/3.7 版本。

第一次尝试就用 Claude Sonnet 4 一次性通关了一个游戏,而且我还在游戏过程中把客厅吸尘了!没有任何 bug,就这么丝滑。

还有位提前体验了 Claude 4(不确定具体是哪个版本)的用户表示,它的表现让人印象深刻。

“举个有趣的例子,当我输入提示词:把《皮拉内西》这本书做成 p5js 的 3D 空间。帮我实现一下——仅仅这样一句话,没有任何额外提示,它就生成了这个作品(注意那些鸟、水体和光影效果)。”

推理模型成“兵家必争之地”

2025 年,人工智能行业已显著转向推理模型。这些系统在做出反应之前会系统地解决问题,模拟类似人类的思维过程,而不是简单地根据训练数据进行模式匹配。

OpenAI 于去年 12 月凭借其“o”系列开启了这一转变,随后谷歌 Gemini 2.5 Pro 也推出了实验性的“深度思考”功能。DeepSeek 的 R1 模型凭借其卓越的问题解决能力和极具竞争力的价格意外地占领了市场份额。

这一转变标志着人们使用人工智能方式的根本性变革。根据 Poe 的《2025 年春季人工智能模型使用趋势报告》,推理模型的使用量在短短四个月内增长了五倍,占所有人工智能交互的比例从 2% 增长到 10%。用户越来越多地将人工智能视为解决复杂问题的思维伙伴,而非简单的问答系统。

随着新型人工智能模型引起用户兴趣,推理类信息的比例在 2025 年初大幅上升。(图片来源:Poe)

Claude 的新模型的独特之处在于将工具的使用直接融入推理过程。这种同步研究与推理的方法比以往先收集信息再进行分析的系统更贴近人类认知。在推理过程中暂停、查找数据并融入新发现的能力,创造了更自然、更有效的解决问题体验。

Anthropic 的新发布时机凸显了高级人工智能领域竞争的加速。在 OpenAI 推出 GPT-4.1 系列仅五周后,Anthropic 就推出了在关键指标上挑战甚至超越它的模型。谷歌本月初更新了其 Gemini 2.5 系列,而 Meta 最近发布了其 Llama 4 模型,该模型具有多模态功能和 1000 万个 token 上下文窗口。

在这个日益专业化的市场中,每个主要实验室都展现出独特的优势。OpenAI 在通用推理和工具集成方面处于领先地位,谷歌在多模态理解方面表现出色,而 Anthropic 则在持续性能和专业编码应用方面独占鳌头。

这对企业客户而言具有重大的战略意义。如今,企业面临着日益复杂的决策,即针对特定用例部署哪些 AI 系统,没有哪个模型能够在所有指标上占据主导地位。这种碎片化有利于成熟的客户,他们可以利用专业的 AI 优势,同时也挑战了寻求简单统一解决方案的公司。

参考链接:

https://www.anthropic.com/news/claude-4

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅欢迎扫码关注我的微信视频号~



今日荐文

图片

你也「在看」吗?👇


从用户体验的角度来看,推理模型将使 AI 更具适应性和个性化。AI不再是简单地提供信息,而是能够理解用户的需求和上下文,提供定制化的解决方案。例如,在教育领域,AI可以根据学生的学习风格和进度,提供个性化的辅导和反馈。在医疗领域,AI可以辅助医生进行诊断和治疗方案的制定。这种互动方式将更加人性化和高效。

这个问题很有意思!7小时的自主运行时间,我觉得对于需要长时间监控和决策的领域会有很大影响,比如金融市场的实时交易、智能制造的产线优化,甚至自动驾驶的复杂路况处理,想想都很 exciting!

互动方式肯定会更自然、更智能啊!现在的 AI 很多时候像个客服,只能回答你预设好的问题。但推理模型就能像个顾问,能理解你的意图,帮你分析问题、提供建议。以后 AI 可能成为我们生活和工作中不可或缺的伙伴。

从技术角度看,这种“推理即搜索”的方法融合了符号主义和连接主义的优点。优势在于增强了模型的可解释性和知识迁移能力,使其能够处理更加复杂的任务。局限性在于,如何有效地管理和利用外部知识库,以及如何避免模型过度依赖外部信息而丧失自身的推理能力,这些都是挑战。

优势很明显啊!就像人一样,遇到问题会查资料、问专家,而不是死记硬背。这种方式能让AI更灵活、更准确地解决问题。但局限性也很明显,比如需要大量的外部数据支持,对数据的质量要求也很高,而且可能会引入新的偏见。

别忘了游戏领域!想象一下,AI能够自主玩7个小时的复杂策略游戏,不断学习和进化,这对于游戏AI的开发和玩家体验的提升,绝对是质的飞跃。以后打游戏可能遇到的对手就不是人了,而是高度进化的AI!

大胆预测一下!以后我们可能不需要学习复杂的编程语言,只需要用自然语言描述需求,AI 就能自动生成代码、设计产品,甚至完成科学研究。人与 AI 的互动将变得像和朋友聊天一样简单自然。当然,前提是 AI 足够靠谱,不会 out of control。

从学术角度来看,这扩展了AI在复杂、长期任务中的应用。例如,在科研领域,AI可以自主进行长时间的实验模拟和数据分析,加速科学发现。在工业界,可能重塑智能制造和自动化流程,实现更高效的生产和资源管理。不过,伦理风险也不容忽视,需要同步考虑监管问题。

打个比方,传统的AI模型就像一个记忆力超群的学生,而Claude 4 就像一个懂得自主学习的研究者。研究者当然更厉害,但前提是ta得有靠谱的工具和资源。如果给Claude 4 提供的外部信息是错的,那结果可能还不如死记硬背的模型呢!所以,数据质量是关键。