AI Agent 新进展:从 LLM 到“推理模型 + RPA”?

AI Agent“Manus”引发关注,其本质是“推理模型+RPA”,通过自主操控计算机完成任务,各大公司均在探索类似应用。

原文标题:从 LLM 到 Agent:Manus 们莫不是「推理模型 + RPA」 ?

原文作者:机器之心

冷月清谈:

蝴蝶效应公司推出的 AI Agent 产品「Manus」引发关注,其特点是配备独立的虚拟云端浏览器,减少对 AI 的结构化限制,依赖模型自主进化。但实际测试效果一般,并未超出已有的 AI Agent 产品的预期。其技术架构可以理解为“大模型主干+多个小模型组件”的“手脑协同”模式。业内普遍认为,“AI Agent”类似新型自动化 RPA,可以通过模仿人类行为来完成任务。微软、谷歌等公司也在积极探索 AI Agent 在自主操控计算机方面的应用。Gartner 预测,到 2028 年,至少 15% 的日常工作决策将通过 AI Agent 完成。总的来说,AI Agent 正在成为一个重要的技术趋势,各大公司都在积极探索其在不同领域的应用。

怜星夜思:

1、Manus 采用“大模型主干+多个小模型组件”的架构,这种架构的优势和局限性是什么?未来 AI Agent 的架构会朝着什么方向发展?
2、文章提到 AI Agent 更像是实现了新型自动化的 RPA,那么 AI Agent 和传统的 RPA 相比,核心的区别在哪里?AI Agent 会完全取代 RPA 吗?
3、文章提到 Gartner 预测到 2028 年,至少 15% 的日常工作决策将通过 AI Agent 完成,你认为哪些领域会率先应用 AI Agent?这会对我们的工作和生活带来哪些影响?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


近期,由蝴蝶效应公司推出的一款通用 AI Agent 产品「Manus」在 AI 圈内引发了极多的关注。

去年 10 月,在微软、谷歌、Anthropic 等巨头大厂集体发布 AI Agent 方向功能的热潮之时,「机器之心 PRO 会员通讯」发布了一篇深度解读《从文本到屏幕:「Project Jarvis」们能实现 AGI 吗?》,对用作 Browser Use、Computer Use 的 AI Agent 等进行了深入探讨。RPA Agent 正在成为各家大厂巨头实际业务落地的方向,尽管各有差异,但均是为其已有或重点业务方向所服务。

目录

01. 「Manus」 爆火,与以往的 AI Agent 产品有何不同?

「Manus」 为何突然爆火?热度之下,实际能力如何?与以往的 AI Agent 产品有何不同?

02. 用 AI 操控计算机,RPA Agent 成为更实际的落地方向

为什么说 AI Agent 实际上就是更先进的 RPA?AI Agent 和 RPA 有何不同?

03. 微软、谷歌等 AI 头部公司为何都选择自主 AI 操控计算机成为下一步方向?

微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同?

04. 实现自主操控计算机的 AI Agent 需要哪些方面的能力?

AI Agent自主操控计算机需要具备哪些能力?.....

01  「Manus」 爆火,与以往的 AI Agent 产品有何不同?

1、近期,由蝴蝶效应公司推出的一款通用 AI Agent 产品「Manus」在 AI 圈内引发了极多的关注,被称为是「全球首款真正自主的 AI Agent」,甚至出现了邀请码「一码难求」的情况。

2、在「Manus」公布的官方 Demo 演示中,展示了其可以进行市场调研、繁琐文件批量处理、旅行规划以及专业数据分析等任务的能力。与以往的 Browse Use、Computer Use 的 AI Agent 最大的不同是,「Manus」给自己配备了一个独立的虚拟云端浏览器,而不是直接操控用户的电脑。在与用户对话的屏幕右侧,「Manus」会将其执行任务的过程呈现出来。

3、在其官方组织的闭门会上,同样也着重提到了这一点,即坚持「Less structure,more intelligence」的理念,减少对 AI 的结构化限制,依赖模型自主进化能力,而非人工预设流程。通过给 Agent 配备「电脑」的形式,让其获取访问浏览器和工具的能力,而不是 AI 频繁打断用户。

4、但「Manus」的实际能力如何,是否真如其官网 Demo 所展示的「丝滑般体验」?机器之心等多家科技媒体以及个人用户进行了实测,主要测试围绕在针对「Manus」的专业内容分析、代码开发与工程问题解决、复杂任务拆解与执行等方面的能力。综合各家实测情况来看,「Manus」的效果一般,并未超出已有的 AI Agent 产品的预期,如会出现在调用其他平台的 API 时会发生错误、处理复杂任务时易触发服务器宕机等情况。

5、实际上,做「Manus」的技术难度并不大,可以简单理解为「大模型主干+多个小模型组件」的架构。「Manus」 采用了「Multiple Agent」(多代理)的架构,运行在独立的虚拟机中。架构包含规划代理、执行代理和验证代理,通过分工协作机制来提升复杂任务的处理效率。

6、更通俗一点来讲,可以理解为「手脑协同」的模式,「Manus」以基础大模型为核心,作为「大脑」来提供通用的智能和推理能力。在这个基础上,通过多个小模型组件(如规划代理、执行代理和验证代理)分工协作,分别负责任务规划、具体执行和结果验证。这些小模型组件就像是「手脚」,能够灵活地完成各种具体任务,比如编写代码、浏览网页、分析数据等。

7、也因为技术难度相对并不大,后续开源社区中出现了一些针对 Manus 的开源项目,比如 CAMEL AI 团队开源的 OWL 和 MetaGPT 团队开源的 OpenManus。

8、「AI Agent」更像是实现了新型自动化的 RPA(机器人流程自动化)。RPA 主要使用结构化数据和规则执行预定义的重复任务,而 Agent 可以根据复杂的数据和上下文做出决策并适应情况,本质上即是在用户交互界面级别模仿人类行为。[2-13]

9、Anthropic 首席科学官兼约翰霍普金斯大学副教授贾里德·卡普兰 (Jared Kaplan)曾表示:「我认为我们将进入一个新时代,模型可以使用人类使用的所有工具来完成任务。」,而让 AI Agent 使用人类所有工具来完成任务对于目前来说,仍是一种畅想。可以说,「Manus」们正在做的都是同一件事情。

10、同样,在去年 10 月,在微软、谷歌、Anthropic 等巨头大厂集体发布 AI Agent 方向功能的热潮之时,「机器之心 PRO 会员通讯」就发布了一篇名为《从文本到屏幕:「Project Jarvis」们能实现 AGI 吗?》的深度解读,对用作 Browser Use、Computer Use 的 AI Agent 产品/功能进行了深入探讨,后续小节内容节选自该篇解读。 

02  用 AI 操控计算机,RPA Agent 成为更实际的落地方向
推进自主 AI Agent 的发展是今年人工智能领域公司最重要的技术趋势之一。Gartner 预测,到 2028 年,至少 15% 的日常工作决策将通过 AI Agent 完成。微软、谷歌、Anthropic 等公司陆续推出了 AI Agent 及相关功能,使用 AI Agent 帮助用户自主操控计算机、手机等智能设备。[2-1] ......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。


我比较担心的是 AI Agent 的“偏见”问题。如果训练 AI Agent 的数据本身就存在偏见,那么 AI Agent 做出的决策也会带有偏见,这可能会加剧社会不公。

我认为这种架构的优势在于可以充分发挥大模型的通用智能,同时通过小模型组件来完成特定任务,实现分工协作,提升效率。但局限性在于小模型组件的开发和维护成本较高,且容易出现瓶颈。未来 AI Agent 的架构可能会朝着更模块化、可插拔的方向发展,可以根据任务需求灵活组合不同的模块,实现更强的适应性和可扩展性。

从工程角度看,这种架构类似于微服务架构,每个小模型组件是一个独立的微服务,可以通过 API 进行交互。这样做的好处是方便开发、测试和部署,可以独立升级和扩展。但坏处是增加了系统复杂度,需要考虑服务之间的通信和协调。我觉得未来 AI Agent 的架构可能会朝着更智能化的方向发展,可以根据任务的复杂程度自动调整组件的组合和参数。

我觉得 RPA 像是按照剧本演出的机器人,而 AI Agent 则是即兴表演的演员。RPA 只能按照预先设定的流程一步一步执行,一旦遇到意外情况就束手无策。而 AI Agent 可以根据实际情况进行调整,就像演员一样,即使剧本没写,也能随机应变。所以,AI Agent 更有潜力应用于复杂的、动态的环境中。

其实我更关心的是,无论是 RPA 还是 AI Agent,会不会最终导致大量失业?感觉很多原本需要人工完成的工作都可以被自动化取代了。

我觉得 AI Agent 在教育领域也会有很大的应用前景,比如个性化辅导、智能批改作业等等。想象一下,每个学生都有一个专属的 AI 辅导老师,根据他的学习进度和特点进行定制化教学,岂不是美滋滋?

AI Agent 和传统 RPA 的核心区别在于智能程度和适应性。RPA 只能执行预定义的重复任务,而 AI Agent 可以根据复杂的数据和上下文做出决策并适应情况。AI Agent 不会完全取代 RPA,而是会在 RPA 的基础上进行升级和扩展,处理更复杂的任务。简单来说,RPA 是体力劳动者,AI Agent 是脑力劳动者,他们可以协同工作。

我认为客服、金融、医疗等领域会率先应用 AI Agent。在客服领域,AI Agent 可以 24 小时在线解答用户问题,提高服务效率。在金融领域,AI Agent 可以进行智能投资分析,降低风险。在医疗领域,AI Agent 可以辅助医生进行诊断,提高诊断准确率。这些应用会提高工作效率,提升生活品质,但同时也需要关注数据安全和隐私保护。

有没有可能出现一种“全能型”的 Agent,一个模型就能搞定所有任务,不需要那么多小组件?感觉现在这种模式还是太依赖人工设计了,不够智能。