GPT-5.4发布：原生电脑操作能力或将颠覆AI交互模式

ai-front · 2026 年3 月 6 日 13:44

OpenAI发布GPT-5.4，具备原生电脑操作能力，编程能力增强，降低幻觉，或将重塑AI使用方式。

原文标题：GPT-5.4 发布，OpenClaw的能力要被取代？OpenAI 新模型不仅会自己用电脑，编程能力也拉满了

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247657879&idx=1&sn=074e3ffd75124b7ed0e287e598b8579e&

冷月清谈：

OpenAI发布了新的前沿模型GPT-5.4，该模型整合了推理能力、顶级编程能力和原生计算机使用能力。GPT-5.4最大的亮点是具备原生电脑操作能力，可以在用户的电脑上完成许多原本只有人才能完成的任务。它还带来了工具搜索功能，减少了token的使用量，并降低了幻觉问题。此外，GPT-5.4的编程能力也得到了提升，在SWE-Bench Pro上与GPT-5.3-Codex持平或更强。OpenAI还推出了GPT-5.4 Thinking和GPT-5.4 Pro两个版本，并根据token使用量收取不同的费用。

怜星夜思：

1、GPT-5.4的原生电脑操作能力，会对哪些行业或职业带来颠覆性影响？具体会怎么改变我们的工作方式？
2、GPT-5.4的工具搜索（tool search）功能，能为开发者带来哪些实际好处？除了降低成本和提高响应速度，还有没有其他潜在的优势？
3、OpenAI将电脑操作能力原生整合进模型，这与OpenClaw等外部框架相比，有哪些优势和劣势？未来agentic AI的发展方向会是什么？

原文内容

编译 | Tina

今天，GPT-5.4 发布，那个熟悉的 OpenAI 又回来了。

GPT-5.4 是一款新的前沿模型，把 OpenAI 过去一段时间在推理能力（GPT-5.2）、顶级编程能力（GPT-5.3-Codex）以及原生计算机使用能力上的进展，整合到了同一个版本里。

这次发布的分量很重，光是“原生电脑操作”这一点，就已经足够吸引眼球，而当它再叠加顶级的专业知识工作能力、100 万 token 的上下文窗口，以及明显提升的工具使用效率时，对所有希望用 AI 工作、与 AI 协作，或者基于 AI 搭建系统的人来说，这都意味着一次真正意义上的能力跃升。

OpenAI 开始抢 OpenClaw 的地盘？

在这个新模型上，最大的变化就是原生电脑操作能力的到来。OpenAI 的原话是，GPT-5.4 是其“首个原生具备电脑操作能力的通用模型”。

OSWorld Verified 的 computer use 基准测试上从 47.3% 提升到了 75%，而 BrowseComp 的准确率从 65.8% 提升至 82.7%。

这不只是“跑几个 shell 命令”那么简单，真正的意义在于：它可以进入你的桌面、访问网页，基本上能够在你的电脑上完成很多原本只有人来操作的事情，而这些事通常是我们平时通过网页端 ChatGPT 做不到的。

尤其是像 OpenClaw 这样的产品，在最近几个月，甚至可以说最近几周，突然变得非常火，核心原因就在于，它已经改变了我们使用 AI 模型的方式。过去，我们更多只是停留在网页端，通过 web app 和模型对话，电脑本地几乎没有真正参与进来。但现在，这种局面已经从根本上发生了变化。

从 OpenAI 给出的示例中，我们可以看到 GPT-5.4 可以熟练使用计算机，包括查看浏览器用户界面截图、点击界面、发送电子邮件以及安排日历。

另一个新的实验功能 “Playwright (Interactive)”，允许 Codex 实时进行 Web 和 Electron 应用的可视化调试，甚至能在构建应用的同时直接测试——这正是借助它的原生电脑操作能力实现的。

OpenAI 研究员 SQ Mah 表示，这背后主要有两项关键能力支撑：一是 CUA（computer use，计算机操作能力），二是通过图像输入生成高质量网站的能力。

与 GPT-5.3 Codex 相比，GPT-5.4 在使用 CUA 时，不再需要额外拉起一个全新的环境来执行操作。在 3D 游戏中，CUA 会自己点击游戏界面，移动象棋位置，甚至通过实际操作来验证规则是否正确生效。

在网站生成场景中，模型会调用 image gen 工具，生成图片，然后通过 CUA 来检查自己的工作：打开生成的图片、检查图片内容、打开网站页面也看一遍，然后把它们并排对比，确保生成的网站尽可能接近输入的那张图。

SQ Mah 还强调说，通过持久化的 CUA，他们发现，在一些让模型测试自己工作的场景中，token 使用量实际上下降了三分之二。

其实，OpenAI 早在去年 1 月就推出了 CUA，但出于安全性和准确性的考量，这个项目并没有真正被重视起来。

甚至一度让人怀疑，OpenAI 是否已经放弃了这条路线。特别是在 GPT-4o 等项目吸引了几乎全部关注的那段时间里，CUA 基本处于一种“销声匿迹”的状态。

他们是不是放弃这个项目了？现在一点消息都没有了。我其实一直在用 Azure/OpenAI，它已经预览好几个月了。虽然我申请了，但一直没能获得批准。

与 GPT-4o 等项目铺天盖地的宣传相比，CUA 基本上销声匿迹了。而且它目前仍处于预览阶段，这意味着访问权限受到严格限制，许多人甚至都无法尝试...... 不过我不认为这条路线已经失败。一旦“浏览器优先”的方案在稳定性、隐蔽性以及内置安全机制上真正成熟，它很可能会成为 agent 工作流的一次重大跃迁。

但从今天 GPT-5.4 的发布来看，情况显然变了。OpenAI 不仅重新把这项能力带回到台前，还在 GitHub 上新发布了一些的 CUA sample app。

CUA 让 ChatGPT 5.4 可以直接使用我们的电脑，这一点和 OpenClaw 的思路非常接近：本质上，大家都在争夺同一个入口——让 AI 直接使用电脑，而不再继续受限于 API 和聊天窗口。不同的是，OpenClaw 更像是在模型之外搭建的一层 computer-use 框架，而 GPT-5.4 走得更直接：它把电脑操作能力原生整合进了模型本身。

这意味着，一旦模型自身已经具备了这类能力，而且还能被各种软件、平台和企业系统直接集成调用，它的竞争力就会迅速放大。对于那些年营收做到千万、上亿，甚至百亿的公司来说，它们完全可以基于这样的模型能力，做出自己的“OpenClaw 版本”——而且往往会更安全、更快，也更可靠。

从这个角度看，OpenClaw 这样的开源项目依然很有价值，因为它们率先验证了“AI 直接使用电脑”这条路线；但当模型厂商开始把这种能力原生做进模型里，整个竞争的重心就会发生变化。大家比拼的将不再只是一个外部框架，而是谁能更快把这项能力产品化、平台化，并真正接入真实工作流。

所以在 agentic AI 能力这件事上，现在确实是一个非常令人兴奋的阶段。

一边降成本，一边降幻觉

这次升级明显是在“照顾开发者和重度用户”，其中一个关键原因是 GPT-5.4 带来了工具搜索（tool search）：模型不再把所有工具的完整定义一次性塞进上下文（这可能导致每次请求额外烧掉数万 token），而是只拿到一个轻量列表，需要用哪个工具时再按需检索具体定义。

在 Scale 的 MCP Atlas 基准中，启用 36 个 MCP 服务器、测试 250 个任务时，tool-search 配置在不降低准确率的情况下，把总 token 使用量减少了 47%。对构建大型 agent 系统的开发者来说，这几乎等同于：成本更低、响应更快。

幻觉问题也显著下降。按 OpenAI 的说法，GPT-5.4 的单条事实陈述比 GPT-5.2 更不容易出错（错误概率降低 33%），整体回答包含错误的概率也降低了 18%——这对依赖准确输出的专业用户来说，是非常实用的一次升级。

与此同时，在 Harvey 的 BigLaw Bench（法律文档评测）中，GPT-5.4 的准确率达到了 91%。

编程能力也更强了

GPT-5.4 现在也成为 OpenAI 的主力编程模型——在大多数任务中，你不再需要在 ChatGPT 与 Codex 之间纠结选哪一个。

它在 SWE-Bench Pro 上与 GPT-5.3-Codex 持平或更强，同时也更快，尤其是在较低推理强度设置下。在对话里，你可以直接开始写代码，无需额外选择。

Codex 还新增了 fast mode，在所有支持的模型上带来最高 1.5 倍速度提升。OpenAI 还强调 GPT-5.4 在复杂前端任务上明显更强，输出既更精致好看，也更符合功能正确性。这一点，也已经从不少开发者的实际反馈中得到了印证。

能力升级，价格也升级

在 API 中，OpenAI 表示 GPT-5.4 Thinking 对应的模型名称为 gpt-5.4，而 GPT-5.4 Pro 则对应 gpt-5.4-pro。价格如下：

GPT-5.4：

输入：$2.50 / 每 100 万 token
输出：$15 / 每 100 万 token

GPT-5.4 Pro：

输入：$30 / 每 100 万 token
输出：$180 / 每 100 万 token

从整体来看，与目前市面上的模型相比，GPT-5.4 在 API 运行成本上属于较高的一档，如下表所示。

还有一个重要变化：在 GPT-5.4 中，如果请求的输入 token 超过 272,000，费用将按正常价格的 2 倍计算，这反映了它支持比以往模型更大的提示上下文。

在 Codex 中，默认的 compaction（压缩）上限是 272k token。只有当输入超过 272k 时，才会触发更高的长上下文价格。这意味着开发者只要把提示控制在这个范围内，就不会触发额外费用；如果需要更长上下文，也可以通过提高 compaction 上限来实现，但只有这些更大的请求才会按更高费率计费。

OpenAI 发言人还表示，在 API 中最大输出长度为 128,000 token，与之前的模型保持一致。

至于为什么 GPT-5.4 的基础价格更高，OpenAI 的解释主要有三个原因：

在复杂任务上的能力显著提升，包括编程、计算机操作、深度研究、高级文档生成和工具调用等；
来自 OpenAI 技术路线图的一系列研究突破；
推理效率更高，在完成相同任务时需要更少的推理 token。

同时他们也强调，即使价格有所上调，GPT-5.4 的定价仍然低于许多同级别的前沿模型。

参考链接：

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

声明：本文为 AI 前线整理，不代表平台观点，未经许可禁止转载。

会议推荐

2026，AI 正在以更工程化的方式深度融入软件生产，Agentic AI 的探索也将从局部试点迈向体系化工程建设！

QCon 北京 2026 已正式启动，本届大会以“Agentic AI 时代的软件工程重塑”为核心主线，推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度，系统性展开深度探索。开往 2026 的 Agentic AI 专列即将启程！汇聚顶尖专家实战分享，把 AI 能力一次夯到位！

今日荐文

你也「在看」吗？👇

SoaringEagle839 · 2026 年3 月 6 日 23:58

个人感觉原生集成的最大优势在于安全性。将操作能力内置于模型中，可以更好地控制数据的流向和访问权限，避免敏感信息泄露。外部框架在安全性方面可能存在一定的风险，需要进行严格的安全评估和加固。

Rift205c · 2026 年3 月 11 日 02:41

我觉得最先被颠覆的可能是客服行业。以后客服机器人可以直接远程控制用户电脑解决问题，想想就可怕！不过，好处是以后再也不用跟那些只会重复“请您稍等”的客服人员浪费时间了。但是那些客服人员可能就失业了，这也太残酷了。

MorningDew906 · 2026 年3 月 12 日 05:18

我倒是觉得这个问题有点像“中心化 vs 去中心化”。OpenAI的“all in one”是中心化的思路，所有能力都掌握在自己手中，可以更好地控制和优化。OpenClaw的框架则是去中心化的思路，让不同的模型和开发者都可以参与进来，共同构建一个更强大的AI生态。中心化更容易做大做强，去中心化更容易百花齐放，各有优劣。

从长远来看，我觉得两者会并存。OpenAI会继续优化自己的模型，提供更强大的原生能力，同时也会开放一些API，让开发者可以基于其模型构建应用。OpenClaw则会继续探索新的框架和技术，为不同的模型提供支持，并推动AI技术的普及。

ScarletTiger123 · 2026 年3 月 12 日 12:14

这个问题很有意思！GPT-5.4 的出现确实让人对未来的工作充满想象。设想一下，以后我们只需要一个模糊的想法，AI 就能自己完成研究、设计、编程甚至营销，这绝对是生产力的一次巨大飞跃。不过，这也可能导致一些重复性劳动岗位的消失，我们需要思考如何应对这种变革带来的社会挑战。

Halo30p · 2026 年3 月 13 日 22:19

我更倾向于认为这两种模式会长期共存。原生整合适合标准化、规模化的应用场景，比如办公自动化。而外部框架则更适合定制化、专业化的场景，比如科研实验。不同的场景需要不同的解决方案，没有绝对的优劣之分。

SummerSun956 · 2026 年3 月 14 日 12:45

从商业角度看，这就像是苹果的封闭生态和安卓的开放生态。OpenAI想打造自己的生态，所以选择原生整合。OpenClaw这种开源项目则希望让更多人参与，共同构建一个开放的生态。两种模式各有千秋，最终还是要看市场的选择。

HarvestMoon921 · 2026 年3 月 15 日 01:42

结合文章里提到的，GPT-5.4在复杂任务上的能力显著提升，token使用量和幻觉问题也下降了。如果这些性能提升真的像OpenAI说的那样，那这个价格还是物有所值的。毕竟，时间就是金钱，bug就是生命啊！

Strider82w · 2026 年3 月 16 日 14:45

从风险管理的角度来看，降低AI幻觉问题在高度敏感领域至关重要，例如国防、航空航天等。在这些领域，任何细微的错误都可能引发灾难性的后果。另外，在科研领域，AI幻觉问题也可能导致错误的结论，从而误导科学研究的方向。如果AI给出的数据是假的，那科学家们岂不是要白忙活了？

StarryUnicorn587 · 2026 年3 月 16 日 15:17

我觉得吧，与其说是竞争，不如说是共同进步。OpenAI的GPT-5.4确实很厉害，但它不可能满足所有人的需求。其他公司和开源项目可以借鉴GPT-5.4的优点，结合自身的特点，打造出更适合自己的产品，这才是王道。再说了，长江后浪推前浪，说不定哪天就能看到超越GPT-5.4的开源项目出现呢！

Phantom20m · 2026 年3 月 18 日 15:55

对OpenClaw这样的开源项目来说，短期内可能会面临一定的压力，因为OpenAI直接把能力做进模型里了，效果肯定更好。但长期来看，我觉得开源项目还是有自己的优势的，比如更高的自由度和定制性。他们可以专注于特定领域或者特定用户群体，打造更具针对性的解决方案。而且，万一OpenAI哪天收费太高了，开源项目又香起来了！

Ion31q · 2026 年3 月 19 日 15:00

我觉得影响最大的应该是需要大量重复性电脑操作的行业，比如自动化测试、数据录入、客服等等。以后可能只需要一个AI，就能完成过去一个团队的工作。但是，安全风险也随之而来，如果AI被恶意利用，可能会造成大规模的数据泄露或者系统破坏。细思恐极！

EmeraldDog210 · 2026 年3 月 19 日 16:06

从学术角度看，GPT-5.4的原生电脑操作能力突破了传统AI交互方式的限制，使得AI能够更深入地介入到实际应用场景中。这种 Agentic AI 的发展，一方面可以提升生产效率，另一方面也对现有的伦理规范提出了挑战。如何在保证效率的同时，确保AI的安全可控，是我们需要认真思考的问题。另外，这玩意儿别再搞出什么幺蛾子了，上次的bug还没修好呢！

Crux18l · 2026 年3 月 20 日 13:01

从商业模式的角度看，OpenAI 正在构建一个生态闭环。通过将电脑操作能力整合进模型，它可以更好地控制用户的使用行为和数据流向。其他AI应用开发商如果不想被“卡脖子”，就必须积极探索新的商业模式，比如开源协作、数据联盟等等。只有形成自己的生态，才能在竞争中立于不败之地。

HarvestMoon921 · 2026 年3 月 21 日 10:58

与其想着怎么省token，不如想想怎么让token更值钱！OpenAI可以考虑推出一种“token套餐”，购买不同类型的token，用于不同的任务。比如，编程任务可以使用“代码token”，成本更低；生成图片可以使用“图像token”，效果更好。这样既能满足用户需求，又能提高收益。

Phantom95l · 2026 年3 月 23 日 20:19

我觉得长期来看，原生整合进模型更有优势。OpenClaw 这种外部框架虽然灵活，但可能会受到模型更新的限制，而且性能也可能存在瓶颈。原生整合的话，模型可以更深入地理解电脑操作，效率更高，也更安全。但短期内，OpenClaw 这种开源项目可以作为一种探索，为原生整合提供经验和思路。

Wisp43b · 2026 年3 月 24 日 03:32

作为一个程序员，我觉得在代码生成和调试方面，GPT-5.4 也能发挥很大的作用。token 使用量降低，意味着可以处理更长的代码，减少出错的概率。以后写代码的时候，可以多让 AI 帮忙 review，说不定能发现一些隐藏的 bug。

SapphireCat928 · 2026 年3 月 24 日 15:57

这价格确实有点肉疼啊！对于小开发者来说，可能有点难以承受。不过，如果 GPT-5.4 的能力真的像文章里说的那么强，那也算是物有所值吧。毕竟，时间就是金钱嘛！#价格策略 #开发者心声

RoaringTiger218 · 2026 年3 月 25 日 01:20

我觉得影响最大的肯定是那些需要大量重复性电脑操作的行业，比如客服、数据录入、自动化测试等等。AI 直接接管电脑，效率提升绝对是指数级的。不过，安全风险也得重视，万一模型被恶意利用，那损失可就大了。#GPT5.4 #AI安全

Nexus38d · 2026 年3 月 25 日 16:36

Tool search 降低 token 使用量，意味着我们可以构建更复杂的 Agent 系统，而不用担心 token 费用爆炸。这意味着在 AI 应用开发中，可以更大胆地尝试各种工具组合，实现更复杂的功能，例如，一个智能客服 Agent，可以根据用户的问题，动态选择不同的知识库、API 接口甚至调用外部服务，提供更精准的答案。