OpenAI 发布网页操作智能体 Operator,对标智谱 GLM-PC

OpenAI发布网页操作智能体Operator,功能类似智谱GLM-PC,均可自动执行网页任务,但Operator首秀表现不稳定。

原文标题:OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

原文作者:AI前线

冷月清谈:

OpenAI 推出了名为 Operator 的智能体,它能够访问网页并执行用户指令,例如填写表格、订货和创建表情包等。Operator 目前仅对美国 Pro 用户开放,未来将推广至其他用户并整合进 ChatGPT。演示中 Operator 表现好坏参半,部分任务成功完成,部分任务“翻车”。

与此同时,智谱升级了电脑智能体 GLM-PC 至 1.1 版本,强调“代码思维”,新增“深度思考”模式,提升逻辑推理和代码生成能力。GLM-PC 在演示中展现出完成复杂任务的能力,例如自动生成个性化祝福并群发、查询航班信息并设置日历提醒等。

Operator 和 GLM-PC 在技术路线上有所不同。Operator 基于名为 CUA 的新模型,结合了 GPT-4 的视觉功能和强化学习的高级推理能力。GLM-PC 采用“左右脑”协作模式,左脑负责代码生成和逻辑执行,右脑负责感知和交互,背后由 CogAgent 和 CodeGeex 模型支持。评测结果显示,CogAgent 在多项指标上表现优异,但在 OSworld 上略逊于其他模型。

未来,OpenAI 计划在 API 中公开 CUA 模型,智谱则计划将 GLM-PC 与 AIPC 深度融合,并与 PC 厂商合作。

怜星夜思:

1、Operator 和 GLM-PC 这类智能体,未来会取代程序员的一些工作吗?
2、智能体操作网页,安全性怎么保证?会不会出现信息泄露或被恶意利用的情况?
3、文章提到 Operator 和 GLM-PC 的技术路线不同,谁能解释下它们各自的优缺点?

原文内容

整理 |华卫、核子可乐

2025 年了,OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨,OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起,Operator 已面向美国 Pro 套餐用户开放,下一步将扩展至 Plus、Team 以及 Enterprise 用户,并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务,例如填写表格、订购杂货甚至是创建表情包。

而就在昨日,智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ,主打的是“代码思维”,新推出了「深度思考」模式,又增加专用来做逻辑推理和代码生成的功能。

功能体验:Operator“好坏参半”

OpenAI 的首个智能体 Operator 终于到来,好消息是它能帮你自动干不少电脑上的活儿了,但坏消息是“翻车”系数不低。

作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。

期间,用户可以添加其他指令和随时接管控制,Operator 还可以同时运行多项任务。并且,Operator 允许用户保存主页上的快速访问提示词,因此非常适合执行重复类任务。如果用户没有指定网站,Operator 也可以进行浏览,而不是直接进入应用程序或服务。对于关键操作,Operator 会要求用户确认。

技术方面,Operator 可以对浏览器进行“查看”(通过屏幕截图)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误,Operator 还可利用其推理能力实现自我纠正。

在 OpenAI 的官方演示中,Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而,演示过程却不是全程一帆风顺,刚开始的演示是正常进行,但到了后半段的演示却频频“翻车”,甚至未能成功加载相关网页。

而 Operator 的官方介绍也强调,其目前仅提供研究预览版,虽然已经能够处理各类任务,但仍在学习和发展的过程当中很可能会犯错。例如,其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此,Operator 尚有局限性并将根据用户反馈进一步完善。

相比之下,智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月,GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力,并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。

根据官方介绍,GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力,更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。

在实例展示中,GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频,并通过一键操作实现群发,高效完成节日问候;能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。

技术水平:谁家 Agent 模型
略逊一筹?

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务,但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。

Operator 由一套名为 Computer-Using Agent(计算机使用智能体,简称 CUA)的新模型提供支持,CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合,在训练之后能够与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。

而新升级的 GLM-PC 采用的是“左右脑”协作的模式,左脑负责代码生成与逻辑执行,右脑专注于深度感知与交互体验,背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex

具体到该智能体运转的过程,GLM-PC 是以代码形式指挥工作流程和工具调用,期间强化深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。并且在实际执行时,GLM-PC 能感知多层环境反馈,协助反思,以有效自我纠正与优化。

总体来看,两家发布的电脑智能体在技术路线上各有千秋。不过,有评测结果显示,CogAgent 在 GUI 定位(Screenspot)、单步操作(OmniAct)、中文 step-wise 榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了不错的结果,但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。

超级智能体的未来

下一步,OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA,以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称,智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。

“2025 年是 Agent 之年”,在各家接二连三的智能体产品发布后,许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示,“就我个人而言,我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用,我感觉方方面面都有大量工作要做。但它应该能行得通。”

同时其指出,像 OpenAI 的 Operator 这样的项目之于数字世界,就如同类人机器人之于物理世界。人类会成为低级自动化的高级主管,有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快,因为翻转比特的成本大约比移动原子低 1000 倍。

“未来,大家可以组建 Operator 团队,让它们执行选定的长期任务,甚至是运营一整家公司——像 CEO 一样,同时监督十个这样的团队,偶尔可能还得深入一线解决某个障碍。”

Karpathy 还透露,在 OpenAI 成立初期他们就研究过这个想法(参见 Universe 和 World of Bits 项目),但顺序有误——大语言模型必须先出现。但即便到现在,他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合,而且往往是作为适配器附加的。更糟糕的是,LLM 还没有真正涉足过任务周期极长的领域。例如,当视频包含海量信息,是否能把所有信息都塞进上下文窗口(当前范式),然后还指望它能正常运行。

参考链接:

https://openai.com/index/introducing-operator/

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文





图片
你也「在看」吗?👇

从技术路线上看,Operator 像是更偏向模仿人类的操作,而 GLM-PC 则是用代码的逻辑来控制。各有各的好处吧,看实际应用场景了。

不好说,真要能稳定运行,那初级程序员估计要担心了。不过现在看 Operator 的演示,离那一步还有点距离。说不定以后是程序员用这些工具提高效率呢。

取代程序员?我看悬。程序员不光写代码,还要理解需求、设计架构、debug等等,这些智能体能做吗?最多算个高级助手吧。

关于“智能体操作网页,安全性怎么保证”这个问题,我感觉这是个大问题!现在各种授权、登录信息都保存在浏览器里,智能体如果被黑客控制,后果不堪设想啊。

我觉得比起信息泄露,我更担心误操作。万一智能体理解错了我的指令,在网上乱买东西或者删除重要文件怎么办?

针对这个问题,我想到的是不是可以设置权限,类似手机应用权限那样,限制智能体访问某些网站或执行某些操作?

我觉得部分取代是肯定的,特别是重复性高、逻辑简单的编码工作。但程序员的核心价值在于创造性和解决复杂问题的能力,这些智能体目前还难以替代。

Operator 的优势在于可以直接与 GUI 交互,更接近人类操作网页的方式,缺点是演示中表现不稳定。GLM-PC 用代码控制,逻辑性更强,但可能对复杂界面的适应性不如 Operator。

关于“文章提到 Operator 和 GLM-PC 的技术路线不同,谁能解释下它们各自的优缺点?”这个问题,OpenAI 的 Operator 基于 GPT-4,视觉能力应该更强,但推理能力还要看强化学习的效果。GLM-PC 的“左右脑”模式感觉挺有意思,代码生成和逻辑执行分开,可能效率更高,但协同工作会不会有bug就不好说了。