OpenAI 发布智能体 Operator,可自主浏览网页并执行复杂任务,标志着迈入智能体元年。
原文标题:OpenAI发布智能体Operator,能浏览网页并自主执行复杂任务,AI全面进化!
原文作者:图灵编辑部
冷月清谈:
Operator 具有高度的自主性和灵活性,可以独立尝试解决问题,并在必要时请求用户接管。目前,Operator 作为研究预览版首先向美国地区的 Pro 用户开放。
OpenAI 强调 Operator 的安全性和隐私保护,用户可以控制敏感信息的输入,确认重要操作,并随时删除浏览数据。虽然 Operator 在处理复杂界面任务时仍面临挑战,但 OpenAI 计划通过开放 API 扩展其功能,并将其推广至更多用户,甚至可能集成到 ChatGPT 中。OpenAI CEO 山姆·阿尔特曼表示,Operator 只是 OpenAI 推出的“首批智能体”之一,未来还将发布更多类似的智能体。
怜星夜思:
2、Operator 如何平衡自动化操作和用户隐私安全?
3、未来 Operator 有哪些可能的应用场景?
原文内容
OpenAI 又有大动作了!这次,他们发布了一款智能体——Operator。
在当地时间 1 月 23 日的发布会上,OpenAI CEO 山姆·阿尔特曼表示:“这款产品标志着我们正式迈入智能体领域。”这预示着 OpenAI 在人工智能技术上的又一次突破。
而 OpenAI 总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)则在 X 平台上进一步透露:“2025 年将成为智能体元年。”越来越好奇,后面他们还会有什么大招放出来!
想象一下,你有一个智能助手,它不仅能帮助你查找信息,还能主动为你完成一系列繁琐的任务。Operator 就是这样一个助手。它可以独立浏览网页,自动填写表格,甚至帮你预订旅行或购买商品。简直就像是一个无所不能的虚拟助理,随时准备为你服务。
目前,Open AI 称 Operator 作为研究预览版本,首先向美国地区的 Pro 用户开放。虽然它还在不断进化中,但它已经展现出惊人的潜力,未来有望扩展到更多用户。
那么,Operator 是如何做到这一切的呢?这要归功于它背后强大的技术——CUA(Computer-Using Agent)。CUA 是 OpenAI 基于 GPT-4o 技术研发的最新成果,其核心功能在于它结合了 GPT-4o 的视觉识别能力和高级推理能力,可以截图并像人类一样操作鼠标和键盘。
CUA 经过训练可以实现与图形用户界面 (GUI) 进行交互。
想象一下,当你让 Operator 完成一个任务时,它会先“看”到网页的内容(通过截屏),然后像你一样用鼠标和键盘与网页互动。即使遇到问题,Operator 也会自己尝试修正,实在解决不了时,它会请求你接管操作。这种自主性和灵活性让它成为一个强大的网页任务助手。
有了 Operator,你的日常生活会变得更加轻松。它不仅能帮助你完成一些基本的任务,还能处理更复杂的操作:
-
预订旅行:假设你计划去罗马旅游,Operator 可以帮你在 TripAdvisor 上找到最佳的一日游,并完成预订。
-
购物助手:无论是补充日常货品,还是在 Etsy 上定制个性化商品,Operator 都能帮你轻松搞定。
-
多任务处理:你可以同时处理多个任务,比如一边预订露营地,一边购买个性化礼物,Operator 都能高效完成。
-
用户控制:当涉及敏感信息(如登录凭据或支付信息)时,Operator 会请求你亲自操作。
-
用户确认:在执行重要操作(如提交订单或发送邮件)之前,Operator 会确认你的选择。
-
任务限制:对于涉及高风险的任务(如银行交易),Operator 会自动拒绝执行。
用户还可以随时删除浏览数据,退出所有登录账户来确保个人信息得到妥善保护。
尽管 Operator 已经展示了巨大的潜力,但它依然面临一些挑战。例如,在处理复杂界面任务(如创建幻灯片或管理日历)时,它可能会遇到困难。此外,Operator 还需要通过用户反馈不断改进,才能更好地适应不同的使用场景。
不过,OpenAI 对 Operator 的未来充满信心。他们计划通过开放 API 让开发者可以将 CUA 模型集成到自己的应用中,进一步增强其功能。而且,未来 Operator 还将向更多用户开放,甚至可能直接集成到 ChatGPT 中,带来更加流畅的使用体验。
Operator 的发布,标志着人工智能应用的一次重要突破。山姆·阿尔特曼在直播中还说道:Operator 是 OpenAI 推出的“首批智能体”,并透露未来几周和几个月内还将发布更多类似的智能体。那就让我们拭目以待吧!
相关图书推荐
《深度学习入门2:自制框架》
豆瓣评分 9.8,深度学习鱼书姊妹篇,这套书做到了真正意义上的“入门”!书中没有使用内容不明的黑盒,而是从我们能理解的最基础的知识出发,一步一步地实现最先进的深度学习技术。
《深度学习入门4:强化学习》
斋藤康毅 | 著
郑明智 | 译
豆瓣评分 9.8,深受读者喜爱的“鱼书”系列第四弹,深度学习入门经典,从零开始掌握强化学习。沿袭“鱼书”系列风格,提供实际代码,边实践边学习,无须依赖外部库,从零开始实现支撑强化学习的基础技术。
《Python深度学习(第2版)》
[美] 弗朗索瓦·肖莱 | 著作
张亮 | 译
本书由深度学习框架 Keras 之父弗朗索瓦·肖莱执笔,通过直观的解释和丰富的示例帮助你构建深度学习知识体系。作者避免使用数学符号,转而采用 Python 代码来解释深度学习的核心思想,包括 Transformer 架构的原理和示例。
系列视频课全网播放量 100 万+,涵盖最近 10 年最重要的深度强化学习方法,围绕实用、精简两大原则,专注核心知识,成书篇幅仅 312 页,超轻松入门 DRL!全彩印刷,原创 140 多幅精美全彩插图,上市一周登上京东新书销量排行榜第一,口碑、内容兼具。