OpenAI 发布 Operator 智能体:自主浏览网页执行复杂任务

OpenAI 发布智能体 Operator,可自主浏览网页并执行复杂任务,标志着迈入智能体元年。

原文标题:OpenAI发布智能体Operator,能浏览网页并自主执行复杂任务,AI全面进化!

原文作者:图灵编辑部

冷月清谈:

OpenAI 最新发布的智能体 Operator,标志着其正式进军智能体领域。Operator 基于 GPT-4o 技术研发的 CUA(Computer-Using Agent),能够像人类一样浏览网页、填写表格、预订旅行和购物等。它结合了 GPT-4o 的视觉识别和高级推理能力,可以通过截图、操作鼠标和键盘与图形用户界面 (GUI) 进行交互。

Operator 具有高度的自主性和灵活性,可以独立尝试解决问题,并在必要时请求用户接管。目前,Operator 作为研究预览版首先向美国地区的 Pro 用户开放。

OpenAI 强调 Operator 的安全性和隐私保护,用户可以控制敏感信息的输入,确认重要操作,并随时删除浏览数据。虽然 Operator 在处理复杂界面任务时仍面临挑战,但 OpenAI 计划通过开放 API 扩展其功能,并将其推广至更多用户,甚至可能集成到 ChatGPT 中。OpenAI CEO 山姆·阿尔特曼表示,Operator 只是 OpenAI 推出的“首批智能体”之一,未来还将发布更多类似的智能体。

怜星夜思:

1、Operator 的出现会对哪些行业产生最大的影响?
2、Operator 如何平衡自动化操作和用户隐私安全?
3、未来 Operator 有哪些可能的应用场景?

原文内容

OpenAI 又有大动作了!这次,他们发布了一款智能体——Operator。

在当地时间 1 月 23 日的发布会上,OpenAI CEO 山姆·阿尔特曼表示:“这款产品标志着我们正式迈入智能体领域。”这预示着 OpenAI 在人工智能技术上的又一次突破。

而 OpenAI 总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)则在 X 平台上进一步透露:“2025 年将成为智能体元年。”越来越好奇,后面他们还会有什么大招放出来!

想象一下,你有一个智能助手,它不仅能帮助你查找信息,还能主动为你完成一系列繁琐的任务。Operator 就是这样一个助手。它可以独立浏览网页,自动填写表格,甚至帮你预订旅行或购买商品。简直就像是一个无所不能的虚拟助理,随时准备为你服务。

图片

目前,Open AI 称 Operator 作为研究预览版本,首先向美国地区的 Pro 用户开放。虽然它还在不断进化中,但它已经展现出惊人的潜力,未来有望扩展到更多用户。

那么,Operator 是如何做到这一切的呢?这要归功于它背后强大的技术——CUA(Computer-Using Agent)。CUA 是 OpenAI 基于 GPT-4o 技术研发的最新成果,其核心功能在于它结合了 GPT-4o 的视觉识别能力和高级推理能力,可以截图并像人类一样操作鼠标和键盘。

CUA 经过训练可以实现与图形用户界面 (GUI) 进行交互。

想象一下,当你让 Operator 完成一个任务时,它会先“看”到网页的内容(通过截屏),然后像你一样用鼠标和键盘与网页互动。即使遇到问题,Operator 也会自己尝试修正,实在解决不了时,它会请求你接管操作。这种自主性和灵活性让它成为一个强大的网页任务助手。

有了 Operator,你的日常生活会变得更加轻松。它不仅能帮助你完成一些基本的任务,还能处理更复杂的操作:

  • 预订旅行:假设你计划去罗马旅游,Operator 可以帮你在 TripAdvisor 上找到最佳的一日游,并完成预订。
  • 购物助手:无论是补充日常货品,还是在 Etsy 上定制个性化商品,Operator 都能帮你轻松搞定。
  • 多任务处理:你可以同时处理多个任务,比如一边预订露营地,一边购买个性化礼物,Operator 都能高效完成。
当然,在享受这些便利的同时,安全性和隐私保护也同样重要。OpenAI 在设计 Operator 时,也特别注重用户的控制权和数据安全:
  • 用户控制:当涉及敏感信息(如登录凭据或支付信息)时,Operator 会请求你亲自操作。
  • 用户确认:在执行重要操作(如提交订单或发送邮件)之前,Operator 会确认你的选择。
  • 任务限制:对于涉及高风险的任务(如银行交易),Operator 会自动拒绝执行。

用户还可以随时删除浏览数据,退出所有登录账户来确保个人信息得到妥善保护。

尽管 Operator 已经展示了巨大的潜力,但它依然面临一些挑战。例如,在处理复杂界面任务(如创建幻灯片或管理日历)时,它可能会遇到困难。此外,Operator 还需要通过用户反馈不断改进,才能更好地适应不同的使用场景。

不过,OpenAI 对 Operator 的未来充满信心。他们计划通过开放 API 让开发者可以将 CUA 模型集成到自己的应用中,进一步增强其功能。而且,未来 Operator 还将向更多用户开放,甚至可能直接集成到 ChatGPT 中,带来更加流畅的使用体验。

Operator 的发布,标志着人工智能应用的一次重要突破。山姆·阿尔特曼在直播中还说道:Operator 是 OpenAI 推出的“首批智能体”,并透露未来几周和几个月内还将发布更多类似的智能体。那就让我们拭目以待吧!

相关图书推荐

《深度学习入门:基于Python的理论与实现》
斋藤康毅 | 著
陆宇杰 | 译

本书是深度学习真正意义上的入门书,深入浅出地剖析了深度学习的原理和相关技术。书中使用 Python3,尽量不依赖外部库或工具,从基本的数学知识出发,带领读者从零创建一个经典的深度学习网络,使读者在此过程中逐步理解深度学习。


《深度学习入门2:自制框架》

[日]斋藤康毅 | 著
郑明智 | 译


豆瓣评分 9.8,深度学习鱼书姊妹篇,这套书做到了真正意义上的“入门”!书中没有使用内容不明的黑盒,而是从我们能理解的最基础的知识出发,一步一步地实现最先进的深度学习技术。



《深度学习进阶:自然语言处理》
[日]斋藤康毅 | 著
陆宇杰 | 译
豆瓣评分 9.4 的畅销书,”鱼书“系列第 3 部,带你快速直达自然语言处理领域!本书内容精炼,聚焦深度学习视角下的自然语言处理,延续前作的行文风格,采用通俗的语言和大量直观的示意图详细讲解,帮助读者加深对深度学习技术的理解,轻松入门自然语言处理。

《深度学习入门4:强化学习》

斋藤康毅 | 著

郑明智 | 译


豆瓣评分 9.8,深受读者喜爱的“鱼书”系列第四弹,深度学习入门经典,从零开始掌握强化学习。沿袭“鱼书”系列风格,提供实际代码,边实践边学习,无须依赖外部库,从零开始实现支撑强化学习的基础技术。


《Python深度学习(第2版)》

[美] 弗朗索瓦·肖莱 | 著作
张亮 | 译


本书由深度学习框架 Keras 之父弗朗索瓦·肖莱执笔,通过直观的解释和丰富的示例帮助你构建深度学习知识体系。作者避免使用数学符号,转而采用 Python 代码来解释深度学习的核心思想,包括 Transformer 架构的原理和示例。


《深度强化学习》
王树森 黎彧君 张志华 | 著

系列视频课全网播放量 100 万+,涵盖最近 10 年最重要的深度强化学习方法,围绕实用、精简两大原则,专注核心知识,成书篇幅仅 312 页,超轻松入门 DRL!全彩印刷,原创 140 多幅精美全彩插图,上市一周登上京东新书销量排行榜第一,口碑、内容兼具。

脑洞大开一下,未来 Operator 或许可以帮助我们管理个人生活,例如安排日程、预订餐厅、购买机票等等,成为真正的私人助理。

关于“Operator 如何平衡自动化操作和用户隐私安全?”这个问题,我觉得 OpenAI 提到的用户控制和确认机制是一个不错的方向,在涉及敏感信息时,需要用户手动操作,这可以有效保护用户隐私。

从更长远的角度来看,我觉得 Operator 的出现甚至会影响到编程行业。虽然目前它还不能完全替代程序员,但它可以帮助程序员完成一些基础的编程工作,提高开发效率。

除了客服,我觉得电商行业也会受到很大冲击,Operator 可以帮助用户完成比价、下单等操作,甚至可以根据用户的需求推荐商品,这会改变人们的购物方式。

我觉得在医疗领域,Operator 也可以发挥很大作用,它可以帮助医生收集患者的病史信息,辅助诊断,甚至可以进行远程手术操作。

对于“未来 Operator 有哪些可能的应用场景?”这个问题,我想到的是教育领域,Operator 可以根据学生的学习情况提供个性化的学习辅导,甚至可以帮助老师批改作业。

我觉得 Operator 的出现对客服行业的影响会很大,很多重复性的工作都可以交给它来做,客服人员可以专注于处理更复杂的问题。

针对这个问题,我认为除了 OpenAI 的措施外,还需要加强对 Operator 的监管,防止其被滥用,例如用于恶意抢购或传播虚假信息等。

我觉得可以引入类似“沙盒”机制,让 Operator 在一个隔离的环境中运行,这样即使出现问题,也不会影响到用户的真实数据。