OpenAI 发布网页操作智能体 Operator，对标智谱 GLM-PC

ai-front · 2025 年1 月 24 日 11:37

OpenAI发布网页操作智能体Operator，功能类似智谱GLM-PC，均可自动执行网页任务，但Operator首秀表现不稳定。

原文标题：OpenAI 想了快 10 年的超级智能体终于来了！有惊喜，但比智谱晚还“翻车”系数高？

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247632069&idx=1&sn=51c692de9cf992872b6fad0816d2ca67&

冷月清谈：

OpenAI 推出了名为 Operator 的智能体，它能够访问网页并执行用户指令，例如填写表格、订货和创建表情包等。Operator 目前仅对美国 Pro 用户开放，未来将推广至其他用户并整合进 ChatGPT。演示中 Operator 表现好坏参半，部分任务成功完成，部分任务“翻车”。

与此同时，智谱升级了电脑智能体 GLM-PC 至 1.1 版本，强调“代码思维”，新增“深度思考”模式，提升逻辑推理和代码生成能力。GLM-PC 在演示中展现出完成复杂任务的能力，例如自动生成个性化祝福并群发、查询航班信息并设置日历提醒等。

Operator 和 GLM-PC 在技术路线上有所不同。Operator 基于名为 CUA 的新模型，结合了 GPT-4 的视觉功能和强化学习的高级推理能力。GLM-PC 采用“左右脑”协作模式，左脑负责代码生成和逻辑执行，右脑负责感知和交互，背后由 CogAgent 和 CodeGeex 模型支持。评测结果显示，CogAgent 在多项指标上表现优异，但在 OSworld 上略逊于其他模型。

未来，OpenAI 计划在 API 中公开 CUA 模型，智谱则计划将 GLM-PC 与 AIPC 深度融合，并与 PC 厂商合作。

怜星夜思：

1、Operator 和 GLM-PC 这类智能体，未来会取代程序员的一些工作吗？
2、智能体操作网页，安全性怎么保证？会不会出现信息泄露或被恶意利用的情况？
3、文章提到 Operator 和 GLM-PC 的技术路线不同，谁能解释下它们各自的优缺点？

原文内容

整理｜华卫、核子可乐

2025 年了，OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨，OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起，Operator 已面向美国 Pro 套餐用户开放，下一步将扩展至 Plus、Team 以及 Enterprise 用户，并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务，例如填写表格、订购杂货甚至是创建表情包。

而就在昨日，智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ，主打的是“代码思维”，新推出了「深度思考」模式，又增加专用来做逻辑推理和代码生成的功能。

功能体验：Operator“好坏参半”

OpenAI 的首个智能体 Operator 终于到来，好消息是它能帮你自动干不少电脑上的活儿了，但坏消息是“翻车”系数不低。

作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent，Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务，涵盖购物、配送、餐饮和旅行等领域。

期间，用户可以添加其他指令和随时接管控制，Operator 还可以同时运行多项任务。并且，Operator 允许用户保存主页上的快速访问提示词，因此非常适合执行重复类任务。如果用户没有指定网站，Operator 也可以进行浏览，而不是直接进入应用程序或服务。对于关键操作，Operator 会要求用户确认。

技术方面，Operator 可以对浏览器进行“查看”（通过屏幕截图）、和“交互”（使用鼠标和键盘支持所有操作），因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误，Operator 还可利用其推理能力实现自我纠正。

在 OpenAI 的官方演示中，Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而，演示过程却不是全程一帆风顺，刚开始的演示是正常进行，但到了后半段的演示却频频“翻车”，甚至未能成功加载相关网页。

而 Operator 的官方介绍也强调，其目前仅提供研究预览版，虽然已经能够处理各类任务，但仍在学习和发展的过程当中很可能会犯错。例如，其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此，Operator 尚有局限性并将根据用户反馈进一步完善。

相比之下，智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月，GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力，并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。

根据官方介绍，GLM-PC 不仅能够处理复杂逻辑任务，还能在开放性问题上展现更高的适应能力、创造力和泛化能力，更能通过动态优化和情境感知，帮助用户探索更高效的解决方案，特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。

在实例展示中，GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频，并通过一键操作实现群发，高效完成节日问候；能为用户快速查询航班信息，筛选最经济机票，并同步设置飞书日历提醒，实现航班查询、购票筛选到日程安排的一站式服务。

技术水平：谁家 Agent 模型

略逊一筹？

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务，但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。

Operator 由一套名为 Computer-Using Agent（计算机使用智能体，简称 CUA）的新模型提供支持，CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合，在训练之后能够与图形用户界面（GUI）进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。

而新升级的 GLM-PC 采用的是“左右脑”协作的模式，左脑负责代码生成与逻辑执行，右脑专注于深度感知与交互体验，背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex。

具体到该智能体运转的过程，GLM-PC 是以代码形式指挥工作流程和工具调用，期间强化深度思考模式下的规划、推理、反思能力，从而能够稳定高效地应对复杂场景与任务。并且在实际执行时，GLM-PC 能感知多层环境反馈，协助反思，以有效自我纠正与优化。

总体来看，两家发布的电脑智能体在技术路线上各有千秋。不过，有评测结果显示，CogAgent 在 GUI 定位（Screenspot）、单步操作（OmniAct）、中文 step-wise 榜单（CogAgentBench-basic-cn）、多步操作（OSWorld）都取得了不错的结果，但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。

超级智能体的未来

下一步，OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA，以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称，智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。

“2025 年是 Agent 之年”，在各家接二连三的智能体产品发布后，许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示，“就我个人而言，我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用，我感觉方方面面都有大量工作要做。但它应该能行得通。”

同时其指出，像 OpenAI 的 Operator 这样的项目之于数字世界，就如同类人机器人之于物理世界。人类会成为低级自动化的高级主管，有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快，因为翻转比特的成本大约比移动原子低 1000 倍。

“未来，大家可以组建 Operator 团队，让它们执行选定的长期任务，甚至是运营一整家公司——像 CEO 一样，同时监督十个这样的团队，偶尔可能还得深入一线解决某个障碍。”

Karpathy 还透露，在 OpenAI 成立初期他们就研究过这个想法（参见 Universe 和 World of Bits 项目），但顺序有误——大语言模型必须先出现。但即便到现在，他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合，而且往往是作为适配器附加的。更糟糕的是，LLM 还没有真正涉足过任务周期极长的领域。例如，当视频包含海量信息，是否能把所有信息都塞进上下文窗口（当前范式），然后还指望它能正常运行。

参考链接：

https://openai.com/index/introducing-operator/

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下，变革与机遇交织，挑战与突破共生。2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将在北京召开，以 “智能融合，引领未来” 为年度主题，汇聚各领域的技术先行者以及创新实践者，为行业发展拨云见日。现在报名可以享受 8 折优惠，单张门票立省 1360 元，详情可联系票务经理 18514549229 咨询。

今日荐文

你也「在看」吗？👇

Shadow53r · 2025 年1 月 25 日 07:56

从技术路线上看，Operator 像是更偏向模仿人类的操作，而 GLM-PC 则是用代码的逻辑来控制。各有各的好处吧，看实际应用场景了。

Fluxion29d · 2025 年1 月 25 日 11:05

不好说，真要能稳定运行，那初级程序员估计要担心了。不过现在看 Operator 的演示，离那一步还有点距离。说不定以后是程序员用这些工具提高效率呢。

HiddenPanda648 · 2025 年1 月 26 日 04:22

取代程序员？我看悬。程序员不光写代码，还要理解需求、设计架构、debug等等，这些智能体能做吗？最多算个高级助手吧。

Fable314z · 2025 年1 月 27 日 16:49

关于“智能体操作网页，安全性怎么保证”这个问题，我感觉这是个大问题！现在各种授权、登录信息都保存在浏览器里，智能体如果被黑客控制，后果不堪设想啊。

TwilightPeacock415 · 2025 年1 月 28 日 08:33

我觉得比起信息泄露，我更担心误操作。万一智能体理解错了我的指令，在网上乱买东西或者删除重要文件怎么办？

Halo30p · 2025 年1 月 28 日 23:33

针对这个问题，我想到的是不是可以设置权限，类似手机应用权限那样，限制智能体访问某些网站或执行某些操作？

LaughingDolphin634 · 2025 年1 月 29 日 02:31

我觉得部分取代是肯定的，特别是重复性高、逻辑简单的编码工作。但程序员的核心价值在于创造性和解决复杂问题的能力，这些智能体目前还难以替代。

Zen15e · 2025 年1 月 30 日 14:45

Operator 的优势在于可以直接与 GUI 交互，更接近人类操作网页的方式，缺点是演示中表现不稳定。GLM-PC 用代码控制，逻辑性更强，但可能对复杂界面的适应性不如 Operator。

CloudySky415 · 2025 年1 月 31 日 01:00

关于“文章提到 Operator 和 GLM-PC 的技术路线不同，谁能解释下它们各自的优缺点？”这个问题，OpenAI 的 Operator 基于 GPT-4，视觉能力应该更强，但推理能力还要看强化学习的效果。GLM-PC 的“左右脑”模式感觉挺有意思，代码生成和逻辑执行分开，可能效率更高，但协同工作会不会有bug就不好说了。