AutoAgent:自然语言驱动的AI助手操作系统,开源最强Deep Research

港大开源AutoAgent,用自然语言创建AI助手!内置Auto-Deep-Research,通用AI智能体性能全球第三、开源第一。零代码定制,人人可用的AI助手。

原文标题:一句话全自动创建AI智能体,港大AutoAgent打造开源最强Deep Research

原文作者:数据派THU

冷月清谈:

香港大学黄超教授团队开源的 AutoAgent 框架,旨在降低 AI 助手创建门槛,用户可以通过自然语言轻松创建 AI 助手。AutoAgent 内置 Auto-Deep-Research 多智能体系统,GAIA 评测中位列全球第三、开源第一。AutoAgent 的核心模块包括:开箱即用的 Deep Research 模式、基于大语言模型的行动引擎、自管理文件系统和零代码 Agent 定制化功能。AutoAgent 采用结构化的多智能体架构,通过编排智能体协调各专业智能体协同工作。其文件系统是一个向量数据库,支持用户上传任意格式的文本文件,并通过 save_raw_docs_to_vector_db 等工具自动转换为统一的文本格式。此外,AutoAgent 还提供零代码的 Agent 定制化功能,用户只需提供智能体名称和简单的功能描述,系统就能自动完成创建过程。AutoAgent 旨在让每个人都能创造和驾驭属于自己的 AI 助手,重新定义人机协作的未来。

怜星夜思:

1、AutoAgent 强调了让 99.97% 不懂编程的人也能使用 AI Agent。你认为要实现真正的大众化,除了零代码之外,还需要解决哪些问题?
2、Auto-Deep-Research 在 GAIA 评测中取得开源方案第一的成绩,你认为 AutoAgent 在哪些方面还有提升空间,才能进一步缩小与 OpenAI 等商业巨头闭源方案的差距?
3、AutoAgent 提出了“零代码 Agent 定制化”的概念,你认为这种方式会给 AI 应用开发带来哪些变革?又会面临哪些挑战?

原文内容

来源:PaperWeekly‍‍‍‍‍‍‍
本文约4300字,建议阅读10+分钟
AutoAgent 是一个开源的 AI 助手操作系统,旨在降低创建 AI 助手的技术门槛。

香港大学近期重磅发布开源项目 AutoAgent,这是由黄超教授实验室开发的创新 AI 框架。它最大的特点是:只要用自然语言就能创建 AI 助手,让人工智能应用开发变得特别简单。

项目开源仅三周就在 Github 上获得了 2.1k 星标。基于 AutoAgent 引擎,黄超团队还打造了一个超强的 AI 研究助手——Auto-Deep-Research。这个通用 AI 智能体性能目前位列全球第三,开源第一。在开源产品中更是排第一。

它的主要功能包括:

  • 智能搜索:自动搜索网络信息,整合分析内容
  • 自动编程:能处理各种复杂的编程任务
  • 数据分析:进行深入的数据挖掘和分析
  • 智能报告:生成可视化报告

一、导

2025 is the Year of AI Agents


这不是一个随意的预测,而是整个科技界的共识。从英伟达创始人黄仁勋,到 OpenAI 的掌舵人 Sam Altman,从 DeepMind 的天才科学家 Demis Hassabis,再到硅谷顶级投资机构 a16z,他们都指向了同一个未来:AI Agent 即将迎来爆发性增长的拐点。

就像 2022 年是生成式 AI 的元年,ChatGPT 的横空出世彻底改变了我们与 AI 交互的方式。而 2025 年,AI Agent 的普及将掀起一场更具革命性的变革 —— 它不仅能理解和回应,更能主动思考、规划、与环境交互并采取行动,真正成为人类的得力助手。

然而,一个尴尬的现实是:全球仅有 0.03% 的人掌握编程技能。这意味着在 AI Agent 这场技术革命中,99.97% 的人都可能被排除在外。我们真正需要的,不是让少数精英独享 AI Agent 带来的红利,而是让每个人都能够创造和驾驭属于自己的 AI 助手。

在这个重要的历史节点,我们推出了 AutoAgent 框架。这不仅仅是另一个开发工具,而是一次让 AI Agent 创造门槛从“专业编程”降低到“日常对话”的革命性尝试。它内置了开箱即用的 Auto-Deep-Research 多智能体系统,这是一个在 General AI Assistant benchmark GAIA 评测中取得总体第三、开源方案第一的顶尖研究助手。

基于 Claude-3.5-sonnet 构建,支持 Deepseek、Huggingface 等多种模型,它不仅是前三名中最经济实惠的方案,更让每个人都能轻松开启深度研究之旅。得益于其突破性的自我发展架构和智能向量数据库,AutoAgent 不仅能让用户通过自然语言轻松创建各类工具和工作流,更能实现真正的零代码开发,打造专属于你的 AI 助手。

我们也欢迎所有有兴趣的开发者加入我们的社群一起探索,在这个 AI Agent 即将爆发的前夜,AutoAgent 将如何重新定义人机协作的未来...

自研框架 AutoAgent:
https://github.com/HKUDS/AutoAgent
Auto-Deep-Research:
https://github.com/HKUDS/Auto-Deep-Research
论文链接:
https://arxiv.org/abs/2502.05957

现在让我们进一步看看,Auto-Deep-Research 是怎么实现的吧!

二、惊艳一瞥:让 AI 成为你的金融分析师

帮我分析苹果和微软的 10-K 财报,结合最新市场动态,做一份量化分析报告,最好能加上数据可视化。


通过这个简单指令,我们可以看到 Auto-Deep-Research 的实际应用能力。面对两份总计超过 200 页的 PDF 文档,这个多智能体系统展现出了高效的处理能力。

在演示视频中,我们可以看到三个窗口同时运行:终端界面(左侧)显示 Auto-Deep-Research 的思考和规划过程;文件目录(右上)展示生成的分析文档;浏览器窗口(右下)则在收集最新的市场资讯。

从文档解析、网络搜索、到代码编写、数据可视化,整个过程自动化完成,无需人工干预。在约 10 分钟内,系统生成了一份完整的分析报告——这种效率大大提高了财务分析的工作效率。

这个演示展示了 AI 如何处理复杂任务,让人类可以从繁琐的数据处理中解放出来,专注于更具创造性的工作。

agent 生成的 report 和 figure 如下所示:

三、深入剖析 AutoAgent

如图所示,AutoAgent 的设计灵感来自现代操作系统,旨在打造一个全自动的 AI 助手操作系统。就像 Windows 或 MacOS 为电脑提供了完整的运行环境,AutoAgent 为 AI 助手们提供了一个强大而优雅的运行平台。

这个平台由四大核心模块构成,它们默契配合,让用户仅通过自然语言就能创造和管理各类 AI 助手:

  • 开箱即用的开源最强 Deep Research 模式(Agentic System Utilities),为用户提供了顶尖的复杂任务分析和解决能力。
  • 基于大语言模型的行动引擎(LLM-powered Actionable Engine)则是整个系统的'大脑',负责理解用户需求并协调多个AI助手的合作
  • 自管理文件系统(Self-Managing File System)能智能处理和组织各类多模态数据,让 AI 助手得心应手地处理文本、图像等不同类型的信息
  • 零代码的 Agent 定制化功能(Self-Play Agent Customization)让每个人都能轻松打造专属 AI 助手和工作流程,就像在和AI对话一样简单

这些模块的完美配合,让 AutoAgent 成为了一个真正全能的 AI 助手平台,能够适应从学术研究到商业分析等各类场景的需求。

开源最强 Auto-Deep-Research(Agentic System Utilities)

AutoAgent 采用了一个结构化的多智能体架构,使其能够系统化地处理各类复杂任务。从网页浏览、信息检索到数据分析、代码执行,每个功能领域都有专门的智能体负责。

这个智能体系统的核心是编排智能体(Orchestrator Agent)。它作为中央协调者,接收用户需求后,分析任务要点,将其分解为子任务,并分配给相应的专业智能体。通过高效的 handoff 机制,各智能体协同工作直至完成整个任务。

网页智能体(Web Agent)提供了一套全面的网络任务处理工具集。它能够执行从通用网络搜索到文件下载的各类网络任务,通过 10 个高级操作工具(如 click、web_search、visit_url 等)实现精准的网页交互。系统基于 BrowserGym 构建了专业的浏览器环境,将底层的代码驱动行为抽象为高级工具,显著提升了工具定义的扩展性。

代码智能体(Coding Agent)是一个综合性的代码执行解决方案,专门处理从数据分析、计算到机器学习、自动化和系统管理等各类代码驱动的任务。它包含了 11 个核心工具,涵盖代码脚本创建、Python 代码执行、指令实现和目录结构管理等关键功能。

代码智能体运行在交互式终端环境中,所有代码相关工具的执行结果都通过终端输出返回。当输出超出显示容量时,终端会以分页形式呈现,智能体可以通过 terminal_page_up、terminal_page_down 和 terminal_page_to 等命令自如地浏览内容,有效解决了大语言模型上下文长度的限制问题。

本地文件智能体(Local File Agent)则专注于多模态数据的统一处理和分析。它支持多种文件格式的转换和处理,包括文本文档(.doc、.pdf、.txt、.ppt)、视频文件(.mp4、.mov)、音频文件(.wav、.mp3)以及电子表格(.csv、.xlsx)等。

通过统一的工具集,它能够将各类文件转换为 Markdown 格式,并利用交互式 Markdown 浏览器进行高效分析,有效突破了上下文长度的限制。

这套精心设计的架构在 GAIA benchmark 评测中展现出了卓越的性能:以总体第三、开源方案第一的成绩,与 OpenAI 等商业巨头的闭源方案并驾齐驱。

特别值得一提的是,在前三名中,我们是唯一一个基于 Claude-3.5-sonnet 的方案,不仅达到了顶尖性能,还实现了最优的成本效益。同时,系统的开放性使其能够无缝对接 Deepseek-R1 等多种模型,甚至支持本地开源模型部署,让高性能的 Deep Research 真正走入大众视野。

基于大语言模型的行动引擎(LLM-powered Actionable Engine)

基于大语言模型的行动引擎是 AutoAgent 的核心处理单元,负责理解自然语言、生成执行计划并协调各智能体任务。系统采用 LiteLLM 实现了标准化的 LLM 调用接口,支持来自不同供应商的 100 多个模型,确保系统协同运行。

在生成可执行动作方面,系统设计了两种互补范式:直接工具使用范式针对支持工具调用的商业语言模型,能够直接生成下一步执行工具;转换式工具使用范式则将工具使用转化为结构化的 XML 代码生成任务(如 <function=function_name> <parameter=parameter_1>value_1 ... ),既提升了商业模型性能,也为开源模型集成提供了灵活性。

自管理文件系统(Self-Managing File System)

AutoAgent 的文件系统本质上是一个向量数据库,专门设计用于支持大语言模型的检索和理解。系统支持用户上传任意格式的文本文件(如 .pdf、.doc、.txt)或包含文本文件的压缩包和文件夹。

通过 save_raw_docs_to_vector_db 等工具,系统能自动将这些文件转换为统一的文本格式,并存储在用户定义的向量数据库集合中。借助 query_db 和 answer_query 等工具,智能体能够自主管理数据库内存,实现高效精准的信息检索和生成。

在 MultiHop-RAG 基准测试中,基于这一原生自管理文件系统构建的 Agentic-RAG 展现出了卓越性能:准确率达到 73.51%,显著超越了其他基线方法,包括知名的 LangChain 框架。

这一成绩充分证明了我们的系统在处理复杂的多跳检索和生成任务时具备更强的灵活性和适应性,不依赖预定义的工作流程,能够在检索过程中动态编排最优路径。

零代码的 Agent 定制化功能(Self-Play Agent Customization)

AutoAgent 设计了一个代码驱动的自编程智能体框架,通过实现约束机制、错误处理和定制化工作流,实现了可控的代码生成,让用户能够轻松定制工具和智能体,或构建多智能体系统。系统支持两种主要模式:无工作流智能体创建和基于工作流的智能体创建。

无工作流智能体创建

构建高效的多智能体系统通常需要专业领域知识,比如金融法规或医疗协议等专业知识。为了让普通用户也能轻松构建复杂系统,AutoAgent 提供了强大的智能体生成能力。用户只需提供智能体名称和简单的功能描述,系统就能自动完成创建过程。

系统首先通过专业的分析智能体评估现有工具和资源,深入分析用户需求。随后,工具编辑智能体开始发挥作用:它可以无缝集成 LangChain、RapidAPI 和 Hugging Face 等第三方 API,目前已支持 8 类 145 个 RapidAPI 接口和 9 类 Hugging Face 模型。

更重要的是,它能自动生成工具代码、设计测试用例并验证功能,遇到问题时还会自动调试直到成功。

在智能体创建阶段,系统会自动识别是否需要多个智能体协作。如果需要,它会通过 create_orchestrator_agent 工具生成一个编排智能体,遵循 Orchestrator-Workers 设计模式,确保多个智能体之间的有效协调。

基于工作流的智能体创建

当用户对多智能体系统的工作流程有特定要求时,系统采用了创新的事件驱动方法,突破了传统图方法在工作流生成中对图论原则的严格依赖。通过将智能体任务建模为事件,并利用事件监听和触发机制,实现了更灵活的智能体协作。

工作流的构建过程本身就是一个精心设计的多智能体协作:工作流表单智能体负责分析需求并设计事件逻辑,生成结构化的 XML 代码;强大的错误检测机制确保生成的工作流严格符合系统约束;最后,工作流编辑智能体负责创建所需的新智能体、构建工作流并执行任务。

这种设计不仅实现了真正的零代码开发,更通过严谨的框架设计和灵活的事件机制,确保了系统的可靠性和扩展性。

四、结语

AutoAgent 是一个开源的 AI 助手操作系统,旨在降低创建 AI 助手的技术门槛。欢迎访问我们的 GitHub 仓库,为项目点星并加入开源社区。您的参与将有助于项目持续改进,同时促进 AI 技术的普及应用,使更多用户能够利用这一技术。期待与开发者和用户共同推进 AI 助手技术的发展。

GitHub 地址:
https://github.com/HKUDS/AutoAgent

五、研究团队

本项研究由黄超老师带领的港大数据智能实验室(https://sites.google.com/view/chaoh/group-join-us)的团队成员带来。港大数据智能实验室长期耕耘于数据科学,大语言模型领域,由诸如 LightRAG,GraphGPT 等诸多高星开源项目。欢迎大家来 Github 进一步探索:https://github.com/HKUDS

编辑:黄继彦‍‍‍



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得除了零代码,还有几个关键点:

1. 用户体验至上:甭管底层多牛逼,界面、交互都得简单直观。最好能像傻瓜相机一样,对着场景“咔嚓”一下,AI 就知道该干啥。
2. 安全可控:AI Agent 权限太大也让人担心。得有明确的权限管理、行为记录,让用户心里有数,知道 AI 在干啥、没干啥。
3. 信任感建立:AI Agent 的“思考”过程对普通人来说就是黑盒。得想办法让大家理解 AI 的决策逻辑,知道它是怎么得出结论的,才能放心用。
4. 行业标准建立:AI Agent 越多,越需要统一的标准,不然各种 Agent 之间没法互通,数据也难以共享,会形成新的信息孤岛。

零代码 Agent 定制化,我认为是AI应用开发的一大进步,但同时也面临着一些挑战:

变革:

1. 使AI应用的开发更加敏捷和高效。
2. 降低了AI应用的开发成本和风险。

挑战:

1. 零代码平台可能不够灵活,无法满足所有用户的需求。
2. 过度依赖零代码平台可能会限制开发人员的创造力。
3. 零代码平台可能存在安全漏洞,导致AI应用面临风险。

我觉得零代码这玩意儿,有点像“快餐”。方便是真方便,但营养嘛,就不好说了。AI 开发还是得有点“匠人精神”,精雕细琢,才能做出真正的好东西。

要缩小与商业巨头的差距,我认为AutoAgent需要在以下几个方面重点发力:

1. 持续优化智能体架构:AutoAgent目前的多智能体架构已经很出色,但仍有提升空间。例如,可以探索更智能的任务分解和分配策略,提高智能体之间的协作效率。
2. 加强自学习能力:让AutoAgent能够从用户的反馈和使用数据中不断学习,提升自身的能力。例如,可以引入强化学习等技术,让AutoAgent能够更好地适应不同的任务和场景。
3. 注重用户体验:商业巨头通常非常注重用户体验,AutoAgent也应该在这方面下功夫。例如,可以优化界面设计,提供更友好的交互方式,降低用户的使用门槛。
4. 安全: 模型安全非常重要,要防止AI模型被恶意使用

楼上说的都对,但我还想补充一点:得学会“借力”。OpenAI 有钱有人,咱们比不了,但可以跟其他开源项目合作,互相借鉴,共同进步。比如,可以考虑跟 LangChain 这种框架合作,或者引入一些优秀的开源工具。

我认为,要实现AI Agent真正的大众化,除了零代码之外,还需要关注以下几个方面:

1. 算力成本:目前很多AI Agent的运行都需要强大的算力支持,这对于个人用户来说可能是一个不小的负担。如果能降低算力需求,或者提供更经济的云服务,就能吸引更多用户。
2. 数据隐私:AI Agent通常需要访问用户的个人数据才能提供个性化服务。如何保护用户的数据隐私,避免数据泄露或滥用,是大众化过程中必须解决的问题。
3. 伦理考量:AI Agent的自主性和决策能力不断增强,这引发了一些伦理问题。例如,AI Agent是否应该具有道德判断能力?如何避免AI Agent做出歧视性或不公正的决策?
4. 明确的使用场景引导: 大部分人并不了解AI Agent能做什么,不能做什么,所以需要厂商来明确场景,引导用户

“零代码 Agent 定制化”绝对是个大趋势!想想看,以后人人都能像搭积木一样,拼出自己的 AI 助手,那该多爽!

变革:

* 开发门槛大大降低:不懂编程也能搞 AI,这简直是革命性的。
* 创新速度加快:每个人都能快速尝试新想法,AI 应用会像雨后春笋一样冒出来。
* 应用场景更多:AI 不再是高科技,而是融入到各行各业,解决各种实际问题。

挑战:

* 定制化程度受限:零代码毕竟有局限性,复杂需求可能还是得靠专业人士。
* 安全性问题:如果定制的 Agent 被恶意利用,可能会造成安全风险。
* 缺乏标准化:各种零代码平台标准不一,可能会导致应用难以迁移和共享。

虽然 Auto-Deep-Research 很厉害了,但跟 OpenAI 这种巨头比,差距还是有的。我觉得可以从这几个方面入手:

1. 模型优化:Claude-3.5-sonnet 虽然性价比高,但模型能力可能还是比 OpenAI 的顶级模型差一些。如果在模型层面能有突破,比如用更大的模型,或者优化模型结构,性能肯定能提升。
2. 数据积累:OpenAI 背后有海量数据支撑,这是开源项目没法比的。AutoAgent 可以考虑引入更多高质量数据集,或者用一些数据增强技术来弥补差距。
3. 生态建设:OpenAI 的生态很完善,各种插件、工具应有尽有。AutoAgent 可以鼓励开发者贡献更多插件,打造一个繁荣的生态,吸引更多用户。
4. 长期维护: 开源项目很容易出现作者停止维护的情况,如果AutoAgent能够保持长期维护,生态也会更好一些

楼上说的在理!但我觉着最根本的还是得解决“信任”问题。现在很多人对 AI 还是有戒心,怕它胡来,怕它泄露隐私。所以啊,得把 AI Agent 训练得像个“老黄牛”,踏实肯干,值得信赖。这才有人敢放心用。