GPT-5.4发布:原生电脑操作能力或将颠覆AI交互模式

OpenAI发布GPT-5.4,具备原生电脑操作能力,编程能力增强,降低幻觉,或将重塑AI使用方式。

原文标题:GPT-5.4 发布,OpenClaw的能力要被取代?OpenAI 新模型不仅会自己用电脑,编程能力也拉满了

原文作者:AI前线

冷月清谈:

OpenAI发布了新的前沿模型GPT-5.4,该模型整合了推理能力、顶级编程能力和原生计算机使用能力。GPT-5.4最大的亮点是具备原生电脑操作能力,可以在用户的电脑上完成许多原本只有人才能完成的任务。它还带来了工具搜索功能,减少了token的使用量,并降低了幻觉问题。此外,GPT-5.4的编程能力也得到了提升,在SWE-Bench Pro上与GPT-5.3-Codex持平或更强。OpenAI还推出了GPT-5.4 Thinking和GPT-5.4 Pro两个版本,并根据token使用量收取不同的费用。

怜星夜思:

1、GPT-5.4的原生电脑操作能力,会对哪些行业或职业带来颠覆性影响?具体会怎么改变我们的工作方式?
2、GPT-5.4的工具搜索(tool search)功能,能为开发者带来哪些实际好处?除了降低成本和提高响应速度,还有没有其他潜在的优势?
3、OpenAI将电脑操作能力原生整合进模型,这与OpenClaw等外部框架相比,有哪些优势和劣势?未来agentic AI的发展方向会是什么?

原文内容

编译 | Tina

今天,GPT-5.4 发布,那个熟悉的 OpenAI 又回来了。

GPT-5.4 是一款新的前沿模型,把 OpenAI 过去一段时间在推理能力(GPT-5.2)、顶级编程能力(GPT-5.3-Codex)以及原生计算机使用能力上的进展,整合到了同一个版本里。

这次发布的分量很重,光是“原生电脑操作”这一点,就已经足够吸引眼球,而当它再叠加顶级的专业知识工作能力、100 万 token 的上下文窗口,以及明显提升的工具使用效率时,对所有希望用 AI 工作、与 AI 协作,或者基于 AI 搭建系统的人来说,这都意味着一次真正意义上的能力跃升。

OpenAI 开始抢 OpenClaw 的地盘?

在这个新模型上,最大的变化就是原生电脑操作能力的到来。OpenAI 的原话是,GPT-5.4 是其“首个原生具备电脑操作能力的通用模型”。

OSWorld Verified 的 computer use 基准测试上从 47.3% 提升到了 75%,而 BrowseComp 的准确率从 65.8% 提升至 82.7%。

这不只是“跑几个 shell 命令”那么简单,真正的意义在于:它可以进入你的桌面、访问网页,基本上能够在你的电脑上完成很多原本只有人来操作的事情,而这些事通常是我们平时通过网页端 ChatGPT 做不到的。

尤其是像 OpenClaw 这样的产品,在最近几个月,甚至可以说最近几周,突然变得非常火,核心原因就在于,它已经改变了我们使用 AI 模型的方式。过去,我们更多只是停留在网页端,通过 web app 和模型对话,电脑本地几乎没有真正参与进来。但现在,这种局面已经从根本上发生了变化。

从 OpenAI 给出的示例中,我们可以看到 GPT-5.4 可以熟练使用计算机,包括查看浏览器用户界面截图、点击界面、发送电子邮件以及安排日历。

另一个新的实验功能 “Playwright (Interactive)”,允许 Codex 实时进行 Web 和 Electron 应用的可视化调试,甚至能在构建应用的同时直接测试——这正是借助它的原生电脑操作能力实现的。

OpenAI 研究员 SQ Mah 表示,这背后主要有两项关键能力支撑:一是 CUA(computer use,计算机操作能力),二是通过图像输入生成高质量网站的能力。

与 GPT-5.3 Codex 相比,GPT-5.4 在使用 CUA 时,不再需要额外拉起一个全新的环境来执行操作。在 3D 游戏中,CUA 会自己点击游戏界面,移动象棋位置,甚至通过实际操作来验证规则是否正确生效。

在网站生成场景中,模型会调用 image gen 工具,生成图片,然后通过 CUA 来检查自己的工作:打开生成的图片、检查图片内容、打开网站页面也看一遍,然后把它们并排对比,确保生成的网站尽可能接近输入的那张图。

SQ Mah 还强调说,通过持久化的 CUA,他们发现,在一些让模型测试自己工作的场景中,token 使用量实际上下降了三分之二。

其实,OpenAI 早在去年 1 月就推出了 CUA,但出于安全性和准确性的考量,这个项目并没有真正被重视起来。

甚至一度让人怀疑,OpenAI 是否已经放弃了这条路线。特别是在 GPT-4o 等项目吸引了几乎全部关注的那段时间里,CUA 基本处于一种“销声匿迹”的状态。

他们是不是放弃这个项目了?现在一点消息都没有了。我其实一直在用 Azure/OpenAI,它已经预览好几个月了。虽然我申请了,但一直没能获得批准。

与 GPT-4o 等项目铺天盖地的宣传相比,CUA 基本上销声匿迹了。而且它目前仍处于预览阶段,这意味着访问权限受到严格限制,许多人甚至都无法尝试...... 不过我不认为这条路线已经失败。一旦“浏览器优先”的方案在稳定性、隐蔽性以及内置安全机制上真正成熟,它很可能会成为 agent 工作流的一次重大跃迁。

但从今天 GPT-5.4 的发布来看,情况显然变了。OpenAI 不仅重新把这项能力带回到台前,还在 GitHub 上新发布了一些的 CUA sample app。

CUA 让 ChatGPT 5.4 可以直接使用我们的电脑,这一点和 OpenClaw 的思路非常接近:本质上,大家都在争夺同一个入口——让 AI 直接使用电脑,而不再继续受限于 API 和聊天窗口。不同的是,OpenClaw 更像是在模型之外搭建的一层 computer-use 框架,而 GPT-5.4 走得更直接:它把电脑操作能力原生整合进了模型本身。

这意味着,一旦模型自身已经具备了这类能力,而且还能被各种软件、平台和企业系统直接集成调用,它的竞争力就会迅速放大。对于那些年营收做到千万、上亿,甚至百亿的公司来说,它们完全可以基于这样的模型能力,做出自己的“OpenClaw 版本”——而且往往会更安全、更快,也更可靠。

从这个角度看,OpenClaw 这样的开源项目依然很有价值,因为它们率先验证了“AI 直接使用电脑”这条路线;但当模型厂商开始把这种能力原生做进模型里,整个竞争的重心就会发生变化。大家比拼的将不再只是一个外部框架,而是谁能更快把这项能力产品化、平台化,并真正接入真实工作流。

所以在 agentic AI 能力这件事上,现在确实是一个非常令人兴奋的阶段。

一边降成本,一边降幻觉

这次升级明显是在“照顾开发者和重度用户”,其中一个关键原因是 GPT-5.4 带来了工具搜索(tool search):模型不再把所有工具的完整定义一次性塞进上下文(这可能导致每次请求额外烧掉数万 token),而是只拿到一个轻量列表,需要用哪个工具时再按需检索具体定义。

在 Scale 的 MCP Atlas 基准中,启用 36 个 MCP 服务器、测试 250 个任务时,tool-search 配置在不降低准确率的情况下,把总 token 使用量减少了 47%。对构建大型 agent 系统的开发者来说,这几乎等同于:成本更低、响应更快。

幻觉问题也显著下降。按 OpenAI 的说法,GPT-5.4 的单条事实陈述比 GPT-5.2 更不容易出错(错误概率降低 33%),整体回答包含错误的概率也降低了 18%——这对依赖准确输出的专业用户来说,是非常实用的一次升级。

与此同时,在 Harvey 的 BigLaw Bench(法律文档评测)中,GPT-5.4 的准确率达到了 91%。

编程能力也更强了

GPT-5.4 现在也成为 OpenAI 的主力编程模型——在大多数任务中,你不再需要在 ChatGPT 与 Codex 之间纠结选哪一个。

它在 SWE-Bench Pro 上与 GPT-5.3-Codex 持平或更强,同时也更快,尤其是在较低推理强度设置下。在对话里,你可以直接开始写代码,无需额外选择。

Codex 还新增了 fast mode,在所有支持的模型上带来最高 1.5 倍速度提升。OpenAI 还强调 GPT-5.4 在复杂前端任务上明显更强,输出既更精致好看,也更符合功能正确性。这一点,也已经从不少开发者的实际反馈中得到了印证。

能力升级,价格也升级

在 API 中,OpenAI 表示 GPT-5.4 Thinking 对应的模型名称为 gpt-5.4,而 GPT-5.4 Pro 则对应 gpt-5.4-pro。价格如下:

GPT-5.4:

  • 输入:$2.50 / 每 100 万 token

  • 输出:$15 / 每 100 万 token

GPT-5.4 Pro:

  • 输入:$30 / 每 100 万 token

  • 输出:$180 / 每 100 万 token

从整体来看,与目前市面上的模型相比,GPT-5.4 在 API 运行成本上属于较高的一档,如下表所示。

还有一个重要变化:在 GPT-5.4 中,如果请求的 输入 token 超过 272,000,费用将按正常价格的 2 倍计算,这反映了它支持比以往模型更大的提示上下文。

在 Codex 中,默认的 compaction(压缩)上限是 272k token。只有当输入超过 272k 时,才会触发更高的长上下文价格。这意味着开发者只要把提示控制在这个范围内,就不会触发额外费用;如果需要更长上下文,也可以通过提高 compaction 上限来实现,但只有这些更大的请求才会按更高费率计费。

OpenAI 发言人还表示,在 API 中 最大输出长度为 128,000 token,与之前的模型保持一致。

至于为什么 GPT-5.4 的基础价格更高,OpenAI 的解释主要有三个原因:

  1. 在复杂任务上的能力显著提升,包括编程、计算机操作、深度研究、高级文档生成和工具调用等;

  2. 来自 OpenAI 技术路线图的一系列研究突破;

  3. 推理效率更高,在完成相同任务时需要更少的推理 token。

同时他们也强调,即使价格有所上调,GPT-5.4 的定价仍然低于许多同级别的前沿模型。

参考链接:

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

2026,AI 正在以更工程化的方式深度融入软件生产,Agentic AI 的探索也将从局部试点迈向体系化工程建设!

QCon 北京 2026 已正式启动,本届大会以“Agentic AI 时代的软件工程重塑”为核心主线,推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度,系统性展开深度探索。开往 2026 的 Agentic AI 专列即将启程!汇聚顶尖专家实战分享,把 AI 能力一次夯到位!

今日荐文

图片

你也「在看」吗?👇

个人感觉原生集成的最大优势在于安全性。将操作能力内置于模型中,可以更好地控制数据的流向和访问权限,避免敏感信息泄露。外部框架在安全性方面可能存在一定的风险,需要进行严格的安全评估和加固。

我觉得最先被颠覆的可能是客服行业。以后客服机器人可以直接远程控制用户电脑解决问题,想想就可怕!不过,好处是以后再也不用跟那些只会重复“请您稍等”的客服人员浪费时间了。但是那些客服人员可能就失业了,这也太残酷了。

我倒是觉得这个问题有点像“中心化 vs 去中心化”。OpenAI的“all in one”是中心化的思路,所有能力都掌握在自己手中,可以更好地控制和优化。OpenClaw的框架则是去中心化的思路,让不同的模型和开发者都可以参与进来,共同构建一个更强大的AI生态。中心化更容易做大做强,去中心化更容易百花齐放,各有优劣。

从长远来看,我觉得两者会并存。OpenAI会继续优化自己的模型,提供更强大的原生能力,同时也会开放一些API,让开发者可以基于其模型构建应用。OpenClaw则会继续探索新的框架和技术,为不同的模型提供支持,并推动AI技术的普及。

这个问题很有意思!GPT-5.4 的出现确实让人对未来的工作充满想象。设想一下,以后我们只需要一个模糊的想法,AI 就能自己完成研究、设计、编程甚至营销,这绝对是生产力的一次巨大飞跃。不过,这也可能导致一些重复性劳动岗位的消失,我们需要思考如何应对这种变革带来的社会挑战。

我更倾向于认为这两种模式会长期共存。原生整合适合标准化、规模化的应用场景,比如办公自动化。而外部框架则更适合定制化、专业化的场景,比如科研实验。不同的场景需要不同的解决方案,没有绝对的优劣之分。

从商业角度看,这就像是苹果的封闭生态和安卓的开放生态。OpenAI想打造自己的生态,所以选择原生整合。OpenClaw这种开源项目则希望让更多人参与,共同构建一个开放的生态。两种模式各有千秋,最终还是要看市场的选择。

结合文章里提到的,GPT-5.4在复杂任务上的能力显著提升,token使用量和幻觉问题也下降了。如果这些性能提升真的像OpenAI说的那样,那这个价格还是物有所值的。毕竟,时间就是金钱,bug就是生命啊!

从风险管理的角度来看,降低AI幻觉问题在高度敏感领域至关重要,例如国防、航空航天等。在这些领域,任何细微的错误都可能引发灾难性的后果。另外,在科研领域,AI幻觉问题也可能导致错误的结论,从而误导科学研究的方向。如果AI给出的数据是假的,那科学家们岂不是要白忙活了?

我觉得吧,与其说是竞争,不如说是共同进步。OpenAI的GPT-5.4确实很厉害,但它不可能满足所有人的需求。其他公司和开源项目可以借鉴GPT-5.4的优点,结合自身的特点,打造出更适合自己的产品,这才是王道。再说了,长江后浪推前浪,说不定哪天就能看到超越GPT-5.4的开源项目出现呢!

对OpenClaw这样的开源项目来说,短期内可能会面临一定的压力,因为OpenAI直接把能力做进模型里了,效果肯定更好。但长期来看,我觉得开源项目还是有自己的优势的,比如更高的自由度和定制性。他们可以专注于特定领域或者特定用户群体,打造更具针对性的解决方案。而且,万一OpenAI哪天收费太高了,开源项目又香起来了!

我觉得影响最大的应该是需要大量重复性电脑操作的行业,比如自动化测试、数据录入、客服等等。以后可能只需要一个AI,就能完成过去一个团队的工作。但是,安全风险也随之而来,如果AI被恶意利用,可能会造成大规模的数据泄露或者系统破坏。细思恐极!

从学术角度看,GPT-5.4的原生电脑操作能力突破了传统AI交互方式的限制,使得AI能够更深入地介入到实际应用场景中。这种 Agentic AI 的发展,一方面可以提升生产效率,另一方面也对现有的伦理规范提出了挑战。如何在保证效率的同时,确保AI的安全可控,是我们需要认真思考的问题。另外,这玩意儿别再搞出什么幺蛾子了,上次的bug还没修好呢!

从商业模式的角度看,OpenAI 正在构建一个生态闭环。 通过将电脑操作能力整合进模型,它可以更好地控制用户的使用行为和数据流向。 其他AI应用开发商如果不想被“卡脖子”,就必须积极探索新的商业模式,比如开源协作、数据联盟等等。 只有形成自己的生态,才能在竞争中立于不败之地。

与其想着怎么省token,不如想想怎么让token更值钱!OpenAI可以考虑推出一种“token套餐”,购买不同类型的token,用于不同的任务。比如,编程任务可以使用“代码token”,成本更低;生成图片可以使用“图像token”,效果更好。这样既能满足用户需求,又能提高收益。

我觉得长期来看,原生整合进模型更有优势。OpenClaw 这种外部框架虽然灵活,但可能会受到模型更新的限制,而且性能也可能存在瓶颈。原生整合的话,模型可以更深入地理解电脑操作,效率更高,也更安全。但短期内,OpenClaw 这种开源项目可以作为一种探索,为原生整合提供经验和思路。

作为一个程序员,我觉得在代码生成和调试方面,GPT-5.4 也能发挥很大的作用。token 使用量降低,意味着可以处理更长的代码,减少出错的概率。以后写代码的时候,可以多让 AI 帮忙 review,说不定能发现一些隐藏的 bug。

这价格确实有点肉疼啊!对于小开发者来说,可能有点难以承受。不过,如果 GPT-5.4 的能力真的像文章里说的那么强,那也算是物有所值吧。毕竟,时间就是金钱嘛!#价格策略 #开发者心声

我觉得影响最大的肯定是那些需要大量重复性电脑操作的行业,比如客服、数据录入、自动化测试等等。AI 直接接管电脑,效率提升绝对是指数级的。不过,安全风险也得重视,万一模型被恶意利用,那损失可就大了。#GPT5.4 #AI安全

Tool search 降低 token 使用量,意味着我们可以构建更复杂的 Agent 系统,而不用担心 token 费用爆炸。这意味着在 AI 应用开发中,可以更大胆地尝试各种工具组合,实现更复杂的功能,例如,一个智能客服 Agent,可以根据用户的问题,动态选择不同的知识库、API 接口甚至调用外部服务,提供更精准的答案。