Cursor 发布 Composer 2.0:自研模型性能反超 Claude Opus 4.6,价格仅为其十分之一

Cursor发布Composer 2.0,自研模型反超Claude Opus 4.6,价格仅为十分之一。实测显示其生成应用可一次跑通,效率成本更优。

原文标题:Cursor自研新模型反超Opus 4.6,价格还“打一折”!网友实测:只有它写完应用能一次跑通

原文作者:AI前线

冷月清谈:

Cursor 发布了第二代编程大模型 Composer 2.0,并在 Terminal-Bench 2.0 基准测试中反超了 Claude Opus 4.6。Composer 2.0 在性能提升的同时,价格大幅降低,仅为 Claude Opus 4.6 的十分之一。实际测试显示,Composer 2.0 生成的应用能够一次性跑通,效率和成本均优于 Opus 和 GPT 模型。面对智能体直接完成任务的趋势,Cursor 正在通过自研模型、转向 Agent 模式和深耕企业市场来重塑自身定位,从一个 IDE 外壳转变为具备核心竞争力的 AI 编程平台。

怜星夜思:

1、Cursor 通过降低模型价格来吸引用户,这种策略在长期来看是否可持续?如果其他大厂也推出类似低价高性能模型,Cursor 将如何应对?
2、文章提到 Cursor 正在从“辅助写代码”切换到“智能体完成任务”。你认为这种转变对程序员的职业发展会带来哪些影响?未来程序员的核心竞争力会是什么?
3、Cursor 通过利用 DeepSeek、Kimi、Qwen 等开源模型进行二次训练,降低了成本。你认为这种模式对于国产开源模型的发展有哪些积极意义?

原文内容

作者 | 木子

站在悬崖边的 Cursor,刚刚发布了自家第二代编程大模型:Composer 2.0, 且已在 IDE 中上线。

在一项关键的编程基准测试(Terminal-Bench 2.0)上,Composer 2 竟然 反超了 Claude 的旗舰模型 Opus 4.6。

要知道,在 Cursor 拥有自家编程模型 Composer 之前,它长期“外挂”Claude 和 Codex,虽然因此吸了一大波粉,但也饱受质疑有没有核心能力。

而这一次,不仅性能反超,而且价格还 “打一折”

Cursor 给出的定价是:Fast 版本,每百万输入 token 输入 1.5 美元,每百万输入 token 输出 7.5 美元,比上一代便宜了 57% 左右。

而普通版的价格直接干到了输入 0.5 美元、输出 2.5 美元。相比之下,Claude Opus 4.6 的定价是:输入 5 美元、输出 25 美元——刚好差了整整 10 倍!不过需要说明的是,Anthropic 也指出,在使用缓存与批处理等优化机制时,原则上能把成本最多压到原来的十分之一。

当下, AI 竞争已经卷到了“谁能用更少的钱吐出更多 token”这步,而 Composer 2.0 在速度和成本这两端,竟然同时碾压了 Opus 4.6、GPT-5.4 这两个老对手。Cursor 也是毫不客气地放一张图,把三者的数据对比直接摆上台面。

网友实测:只有 Composer 2

写完应用能一次跑通

Cursor 宣称,Composer 2 在他们用上的所有基准测试中都取得了大幅提升。

除了前文提到的 Terminal-Bench 2.0,在衡量模型 Debug 能力的 SWE-bench Multilingual(多语言版)上,Composer 2 也给出了一个很能打的成绩:73.7%,而 Claude Opus 4.6 的这项得分是 77.83%(数据来自 Anthropic),可见两者已经拉得很近。

只在“通用榜单”里比高低可能已经不能满足 Cursor 了,他们最近还自建了一套基准,专门评估 agent 在真实任务执行水平,名为 Cursor Bench

值得一提的是,Cursor Bench 还曾把在 SWE-Bench 上风光无限的 Claude Sonnet 4.5 直接打回原形:得分从 77.2 骤降到 37.9。至于 Composer 2,大概率已经在这套自家的“魔鬼基准”下被反复检验过了。

话说回来,在数据上的表现确实很亮眼了,那 Composer 2 的真实“业务水平”如何?

一位开发者网友对 Composer 2、Opus 4.6 和 GPT-5.4 在同一任务下做了波实测:

他用一套指定技术栈生成了一个 X 的克隆应用,并允许这三个模型调用浏览器自行测试。

结果显示,三者在规划阶段差别不大,都花了约 5 分钟;但到了真正执行时,差距开始拉开:Composer 2 生成的应用可以直接运行,而 Opus 和 GPT 虽然最终也能完成,但都卡在了 CORS 问题上,需要额外调试。

更有意思的是,三者生成的代码结构和质量其实非常接近,差距主要在于 效率和成本:Composer 2 用时 5 分钟、花费 6.04 美元;而 Opus 和 GPT 分别耗时 19 分钟、22 分钟,成本也更高,达到 10.43 美元和 14.15 美元。

为什么说 Cursor 站在悬崖边?

这当然不是因为它赚不到钱。

恰恰相反,过去一年 Cursor 的营收、估值、用户增长都很猛,企业客户也还在持续买单。

据彭博社 3 月初消息,Cursor 在 2025 年销售额,从一年前的 1.5 亿美元飙升至 20 亿美元(约合人民币 138 亿元)。而且他们的员工数只有 300 多人。

另外,Cursor 在去年 11 月完成了上一轮融资,金额为 23 亿美元,投后估值 300 亿美元左右(约合人民币 2069 亿元)。而且据彭博社 3 月 11 日消息,Cursor 还在和投资者洽谈新一轮融资,投后估值或达 500 亿美元(约合人民币 3448 亿元)。不过谈判还在进行中,最终不一定能达成融资协议。

也就是说,真正危险的,是 Cursor 赖以崛起的那套逻辑正在被掏空:

过去开发者需要 IDE 来和 AI 一起写代码,而现在,越来越多开发者开始直接把任务交给 Claude Code、Codex 这类 CLI 智能体,让它们自己写、自己跑、自己改。

软件开发正在从“辅助写代码”切换到“智能体完成任务”,代码编辑器不再是唯一入口,甚至开始显得多余

这对 Cursor 来说是致命的。它原本最强的地方,是把 Claude、Codex 这些顶级模型装进一个足够顺手的 IDE 里;但当模型厂商自己下场做产品,直接把入口拿走,Cursor 就很容易从“超级入口”滑落成“中间一层”。

更尴尬的是,它长期依赖外部模型,用户喜欢它,恰恰也是因为它接入了最强的大脑;可一旦这些大脑自己做 IDE、做 CLI、做 Agent,Cursor 的护城河就开始变浅——上游模型厂往下吃,下游开发者往外绕,它被夹在中间。

所以 Cursor 的自救方式也很明确:

第一,补上最致命的短板,做自己的模型。

第二,全面转向 Agent,把 IDE 从“文件中心”改成“任务中心”。上线云端多智能体协作,让多个 Agent 并行干活,而不是只做一个代码补全工具。

第三,继续押企业市场,因为大公司迁移慢、合同长、合规重,不会今天用 Cursor 明天就全员切到 Claude Code。

另外,它还要降低对 Anthropic 和 OpenAI 的依赖。Cursor 利用 DeepSeek、Kimi、Qwen 等开源模型做了二次训练,再通过自有数据和强化学习,把它们拧成更便宜、更快的专用编码模型——Cursor 也是搭上中国开源模型的快车了。

说白了,Cursor 现在不只是在做版本更新,而是在抢时间重写自己的存在理由:

在“编辑器可能失去中心地位”的时代,证明自己不只是一个好用的壳,而是一个真正有模型、有系统、有新入口的 AI 编程平台。

参考链接:

https://cursor.com/cn/blog/composer-2

https://x.com/TukiFromKL/status/2034677859818610700

https://x.com/wesbos/status/2034705631773372853

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

OpenClaw 出圈,“养虾”潮狂热,开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下,自托管 Agent 形态迅速普及:多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。

针对这一系列挑战,在 4 月 16-18 日即将举办的 QCon 北京站上,我们特别策划了「OpenClaw 生态实践」专题,将聚焦一线实践与踩坑复盘,分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系,最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。

今日荐文

图片
你也「在看」吗?👇

我觉得未来的IDE会更像一个任务调度中心,开发者只需要提出需求,AI智能体就会自动完成代码编写、测试、部署等一系列工作。IDE可能会变成一个轻量级的界面,用于监控任务进度和进行必要的干预。

这种模式让我想到了“农村包围城市”。先利用开源模型快速占领市场,积累数据和用户,再逐步提升自身的技术实力,最终实现对国外巨头的反超。对于起步较晚的国产AI来说,这可能是一条更现实的路径。

我觉得这波啊,卷的不仅仅是价格,更是背后的技术实力和成本控制能力。Cursor 敢这么降价,说明他们在模型优化和资源利用上可能有了突破。其他厂商如果没法在技术上跟上,光靠砸钱补贴,估计也撑不了多久。

启示很大!国产AI不应该只盯着OpenAI这些巨头,而是要充分利用国内丰富的开源资源和应用场景,走出一条差异化的发展道路。比如,可以针对特定行业或者特定任务进行模型优化,形成自己的核心竞争力。

这给国产AI的发展指明了一个方向:与其一开始就追求做出超越OpenAI的模型,不如先立足于现有的开源资源,通过二次训练和自有数据强化,打造出更适合国内市场需求的专用模型。这样可以降低研发成本,加速产品落地。

从长远来看,如果AI真的足够智能,能够完全理解我们的需求并自主完成任务,那么传统的IDE可能会被淘汰。未来的开发模式可能会更加注重需求的表达和验证,而不是具体的代码编写。当然,这需要AI技术有质的飞跃。

这价格战肯定是要打起来的。Cursor 2.0 这一手直接把价格拉低一个档次,其他家要么跟进,要么就得拿出更有说服力的理由来证明自己的高价是合理的。对于咱们开发者来说,是好事儿,能用更低的成本体验到更好的服务。

IDE 的未来形态可能会更像是一个 AI 助手,帮助我们更好地组织和管理代码。它可能不再是代码的唯一入口,但会提供更强大的代码分析、调试和优化功能,让我们能够更高效地完成任务。个人认为,IDE 不会消失,但会以一种更智能、更协作的方式存在。

降价是必然趋势,但可持续性存疑。Cursor 这种大幅降价,短期内能吸引用户,但长期来看,如果技术上没有绝对优势,很容易陷入恶性循环。其他大厂可能会通过优化模型效率或者提供差异化服务来应对,毕竟一味降价不是长久之计。

其实我觉得数据安全会是一个很大的突破口。 现在大家对 AI 的数据安全问题越来越重视,Cursor 可以强调其对用户数据的保护,提供私有化部署等服务,吸引那些对数据安全要求比较高的企业用户。毕竟,代码是企业的核心资产,安全问题至关重要。

我觉得可以考虑和一些开源社区合作,共同开发一些特定领域的 AI 编程解决方案。 比如,针对 Web3、人工智能或者嵌入式系统等领域,提供开箱即用的 AI 编程工具。 这样可以快速积累用户,并且建立良好的口碑。

问题3:我觉得这对于国产开源模型来说,就像是获得了一笔天使轮投资。Cursor 的使用不仅带来了实际的收益,更重要的是带来了品牌效应和用户反馈。 这可以激励更多的开发者参与到国产开源模型的开发中,提高模型的质量和竞争力。不过,国产开源模型也需要注意保护自己的知识产权,避免被滥用。

问题1:价格战初期肯定能吸引用户,但长期来看烧钱模式不可取。如果大厂跟进,就得拼技术和生态了。Cursor 需要在 IDE 的易用性、插件生态、用户社区等方面建立优势,不能只靠低价!

问题1:价格战emmm,互联网企业屡试不爽的套路。我觉得Cursor现在有点像DOTA2里的一个英雄,前期靠着自己的技能combo打出优势,但是后期还是要看装备和团队配合。面对大厂的竞争,Cursor需要不断提升自己的“装备”,也就是技术实力和服务能力,同时也要加强“团队配合”,与其他开源社区和开发者建立更紧密的合作关系。

问题2:楼上说的有道理,不过我觉得程序员也不用太焦虑。就好像有了编译器,汇编程序员也没有完全消失一样。 智能体更多的是提高效率,但真正的创新和复杂逻辑的实现,还是需要人来完成。所以未来的程序员需要不断学习新的技术,保持好奇心和解决问题的能力,才能在 AI 时代立于不败之地。