Claude 3.7 Sonnet 发布:全球首个混合推理模型,编码能力大幅提升

Anthropic 发布 Claude 3.7 Sonnet,全球首个混合推理模型,编码能力大幅提升,并推出智能编码工具 Claude Code。

原文标题:全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

原文作者:机器之心

冷月清谈:

Anthropic 发布了最新的旗舰模型 Claude 3.7 Sonnet,这是全球首个混合推理模型,拥有标准和扩展两种思考模式,用户可以通过 API 控制模型的思考时间,在速度和答案质量之间进行权衡。

Claude 3.7 Sonnet 的编码能力得到显著提升,成为 Anthropic 迄今为止最好的编码模型。它在 SWE-bench Verified 和 TAU-bench 等基准测试中均取得了 SOTA 性能,并被多家合作伙伴证实,在处理复杂代码库、高级工具使用、全栈更新等方面表现出色。

此外,Anthropic 还推出了智能编码工具 Claude Code,可以帮助开发者搜索、阅读、编辑代码,编写和运行测试,提交代码到 GitHub 等。Claude Code 作为有限的研究预览版本发布,旨在更好地了解开发者如何使用 Claude 进行编码。

Claude 3.7 Sonnet 通过所有 Claude 计划(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 提供。

怜星夜思:

1、Claude 3.7 Sonnet 作为混合推理模型,相比传统的独立推理模型有什么优势?这种“一个模型,两种思考方式”的设计理念对未来 AI 模型的发展有什么启示?
2、Claude 3.7 Sonnet 在编码能力上取得了显著提升,这是否意味着它会取代程序员?未来 AI 驱动的编程工具会如何改变软件开发流程?
3、Anthropic 强调 Claude 3.7 Sonnet 注重实际应用,并在模型卡中详细介绍了安全性和可靠性评估。这对于构建负责任的 AI 有什么意义?

原文内容

机器之心报道

编辑:杜伟


就在昨晚,Anthropic 要发新模型的消息开始在 AI 社区广泛发酵,不过并不是期待中的 Claude 4.0,而是 3.7 Sonnet 版本。


图源:https://x.com/btibor91/status/1893970824484581825

今天凌晨,Anthropic 的新旗舰模型如约而至,正式发布了其迄今为止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet


Claude 3.7 Sonnet 可以产生近乎即时的响应或者向用户展示扩展的、逐步的思考。按照 Anthropic 的说法,「一个模型,两种思考方式」(One model, two ways to think.),即标准和扩展思考模式。另外 API 用户还可以对模型的思考时间进行细粒度控制。

图片

在发布 Claude 3.7 Sonnet 之外,Anthropic 还推出了用于智能编码的命令行工具 Claude Code。它目前作为有限的研究预览版本使用,使开发人员能够直接从他们的终端将大量工程任务委托给 Claude。


在编码方面,Anthropic 还改进了 Claude.ai 上的编码体验,其 GitHub 集成现已在所有 Claude 计划中提供,使开发人员能够将他们的代码存储库直接连接到 Claude。通过更深入地了解个人、工作和开源项目,Claude 将成为用户在 GitHub 项目中修复错误、开发功能和构建文档的更强大合作伙伴。

因此,得益于编码和前端 web 开发方面的功能与改进,Claude 3.7 Sonnet 成为 Anthropic 迄今为止最好的编码模型

目前,新模型 Claude 3.7 Sonnet 可以通过所有 Claude 计划(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用。除了免费用户之外,所有其他用户均可体验扩展思考模式。

在标准和扩展思考模式下,Claude 3.7 Sonnet 的价格与其前代(Claude 3.5 Sonnet)相同,每百万输入 token 3 美元,每百万输出 token 15 美元(包括思考 token)

正如一位网友所评价的那样,「Anthropic 的每次发布都能让人微笑并感到兴奋!」


最强 Claude 3.7 Sonnet
让前沿推理触手可及

Anthropic 表示,其开发 Claude 3.7 Sonnet 的理念与市面上其他推理模型不同。正如人类使用单个大脑进行快速反应和深度思考一样,Anthropic 认为推理应该体现前沿模型的综合能力,而不再是完全独立的模型。这种统一的方法将为用户创造更无缝的体验。

遵循上述理念,Claude 3.7 Sonnet 形成了很多独有优势。

首先,Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型。你可以选择何时希望模型正常回答,何时希望它在回答之前思考更长时间。在标准模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升级版。在扩展思维模式下,它会在回答之前进行自我反思,从而提高其在数学、物理、指令遵循、编码和许多其他任务上的表现。Anthropic 发现,两种模式下,模型的提示词工作方式类似。

其次,当通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考预算。你可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值,其输出限制为 128K 个 token。这允许用户在速度(和成本)和答案质量之间进行权衡。

第三,在开发自家的推理模型时,Anthropic 对数学和计算机科学竞赛问题的优化较少,而是将重点转向更能反映企业实际使用 LLM 方式的现实任务

我们来看下 Claude 3.7 Sonnet 的基准测试结果,其中在 SWE-bench Verified(评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集)上,Claude 3.7 Sonnet 实现了 SOTA 性能,远远超过了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1


在 TAU-bench(评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台)上,Claude 3.7 Sonnet 同样实现了 SOTA 性能,超过了 Claude 3.5 Sonnet 和 OpenAI 的 o1。


Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码方面表现出色,扩展思考在数学和科学方面实现了显著提升,但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。


可以看到,对于 Claude Sonnet 3.7,Anthropic 将重点放在了编码能力上,其他领域似乎并不特别重要。很明显,Anthropic 想将 Sonnet 定位为编码 AI(已经是了)。

图源:https://x.com/kimmonismus/status/1894098443859079609

另外,除了传统基准之外,Claude 3.7 Sonnet 甚至可以在宝可梦(Pokémon)游戏测试中超越所有以前的模型。

Anthropic 已经与合作伙伴进行了非常多的早期测试,证明了 Claude 在编码能力方面的全面领先地位。

其中,Cursor 指出 Claude 再次成为现实世界编码任务的最佳选择,从处理复杂代码库到高级工具使用都有显著改进。Cognition 发现,Claude 在规划代码更改和处理全栈更新方面远远优于任何其他模型。

Vercel 强调了 Claude 在复杂代理工作流程中的出色精确度,而 Replit 已成功部署 Claude 从头开始构建复杂的 Web 应用程序和仪表板,而其他模型则停滞不前。在 Canva 的评估中,Claude 始终如一地编写出具有卓越设计品味且可投入生产的代码,并大幅减少了错误。

Claude Code
智能编码让开发更便捷

自 2024 年 6 月以来,Sonnet 一直是全球开发者的首选模型。今天,Anthropic 推出了其首款智能编码工具 Claude Code(有限的研究预览版本),进一步增强开发者的能力

在功能上,Claude Code 是一个积极的协作者,可以搜索和阅读代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub,以及使用命令行工具。

我们来看下它的几个使用示例,比如解释项目结构:

图片

编写测试:

图片

构建应用:

图片

虽然是一款早期产品,Claude Code 对于 Anthropic 团队来说已经变得不可或缺,尤其是用于测试驱动开发、调试复杂问题和大规模重构。

在早期测试中,Claude Code 可以一次性完成通常需要 45 分钟以上手动工作才能完成的任务,从而减少了开发时间和开销

在接下来的几周内,Anthropic 计划根据自身的使用情况不断改进 Claude Code,包括增强工具调用可靠性、增加对长时间运行命令的支持、改进应用内渲染以及扩展 Claude 对其功能的理解。

Claude Code 的目标是更好地了解开发人员如何使用 Claude 进行编码,以便为未来的模型改进提供参考。通过加入此预览版,用户将可以使用 Anthropic 用于构建和改进 Claude 的相同强大工具。

负责任构建与未来展望

Anthropic 对 Claude 3.7 Sonnet 进行了广泛的测试和评估,并与外部专家合作,以确保其符合其安全性和可靠性标准。

同时,Claude 3.7 Sonnet 还对有害请求和良性请求进行了更细微的区分。与前代相比,不必要的拒绝减少了 45%。

CoT 忠实度评估结果。

在 Claude 3.7 Sonnet 的模型卡中,Anthropic 详细细分了自身的负责任扩展策略评估以及其他 AI 实验室和研究人员应用于他们工作的情况。另外,模型卡中还概览了计算机使用带来的新风险,特别是快速注入攻击,并解释了 Anthropic 如何评估这些漏洞并训练 Claude 抵御和缓解这些漏洞。

此外,模型卡中还研究了推理模型的潜在安全优势,以及理解模型如何做出决策、模型推理是否真正值得信赖和可靠。


系统卡地址:https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf

对于此次发布的 Claude 3.7 Sonnet 和 Claude Code,Anthropic 认为它们标志着 AI 系统迈出了重要一步,开始向着真正增强人类能力迈进。凭借着深度推理、自主工作和有效协作的能力,我们更接近了 AI 丰富和扩展人类能力的未来。

Anthropic 还展示了一个真正令人兴奋的发展图景,希望在 2025 年 Claude 可以成为独立自主工作数小时的专家级智能体;到 2027 年,希望 Claude 能够解决人工团队花费数年才能解决的挑战性难题。


博客地址:https://www.anthropic.com/news/claude-3-7-sonnet

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

取代程序员?想多了吧,现在AI最多也就是个高级点的代码补全工具:joy:。真要取代程序员,估计还得等个几十年吧。不过话说回来,AI 辅助编程确实是大势所趋,说不定以后程序员只需要动动嘴就能写代码了。

我觉得混合推理模型的优势在于它更接近人类的思考方式。人脑可以在快速反应和深度思考之间切换,Claude 3.7 Sonnet 的设计理念也体现了这一点。这种更灵活的思考方式或许能帮助AI模型更好地理解和解决复杂问题。

未来 AI 驱动的编程工具可能会让软件开发流程更加自动化和智能化。程序员可以更专注于设计和架构,而 AI 可以负责代码生成、测试和部署等环节,从而缩短开发周期,降低开发成本。

关于“一个模型,两种思考方式”,我觉得最大的优势在于资源利用率的提升。传统的独立推理模型需要分别训练和部署,而混合推理模型可以根据需求切换思考模式,避免了资源的浪费。这对于未来AI模型的发展很有启示意义,未来可能会有更多模型采用这种多模式的设计,以适应不同的应用场景。

从实际应用角度来看,混合推理模型可以让用户根据自己的需求选择合适的思考模式,比如需要快速响应时选择标准模式,需要更精确的答案时选择扩展模式。这种用户可控的特性对于提升用户体验非常重要。

Anthropic 的做法为构建负责任的 AI 树立了榜样。他们对模型进行全面的安全性和可靠性评估,并公开相关信息,这有助于提升 AI 模型的透明度和可信度,也有利于其他研究者开展相关工作。

我觉得 Claude 3.7 Sonnet 并不会取代程序员,而是会成为程序员的得力助手。它可以帮助程序员完成一些重复性的工作,提高开发效率,但程序员的核心价值在于创造力和解决问题的能力,这是 AI 目前难以替代的。

对于“构建负责任的 AI”这个问题,我觉得 Anthropic 的做法是值得借鉴的。他们不仅关注模型的性能,更关注模型的安全性,这对于 AI 的长远发展至关重要。

负责任的AI?说白了就是既要马儿跑得快,又要马儿不吃草。Anthropic 的做法至少让我们看到了他们在努力平衡性能和安全,这对于推动 AI 的健康发展非常重要。