Hugging Face 团队 24 小时复现 OpenAI Deep Research,开源免费版效果逼近原版

Hugging Face 团队 24 小时复现 OpenAI 的 Deep Research,并开源了免费版本,其效果接近原版,引发社区关注。

原文标题:等不到 OpenAI 开源了!5 个工程师 24 小时手撸免费版 Deep Research,效果直追正主、过程全公开

原文作者:AI前线

冷月清谈:

来自 Hugging Face 的五位工程师在 24 小时内成功构建了 OpenAI Deep Research 的开源免费版本 Open Deep Research。该版本利用 OpenAI 的 o1 模型和开源代理框架,能够自主浏览网页、处理文件并进行数据计算,其效果与 OpenAI 原版以及谷歌的 Deep Research 相似。

该团队采用“代码智能体”改进传统 AI 智能体系统,并利用 Hugging Face 的开源“smolagents”库提高了任务完成效率。他们还借鉴了微软研究院的 Magentic-One 智能体中的工具,并计划进一步改进文件处理方式和浏览器功能。

在 AI 模型选择方面,团队尝试了 DeepSeek R1 和 o3-mini 等模型,最终选择了 o1 模型,并表示会持续关注 open-R1 计划,寻找更合适的开源模型。

Open Deep Research 在 GAIA 基准测试中获得了 54% 的准确率,略低于 OpenAI 原版的 67.36%。虽然性能略有差距,但 Open Deep Research 为开发者提供了研究和改进这项技术的机会,也展示了开源社区快速复制和分享专有 AI 功能的能力。

此外,Open Deep Research 的开源特性使得开发者可以自由切换 AI 模型,支持完全开源的流程。

怜星夜思:

1、Open Deep Research 的开源是否会对 OpenAI 的商业模式造成冲击?
2、除了文中提到的改进方向,Open Deep Research 还有什么其他值得探索的改进方向?
3、代码智能体相比于传统的基于 JSON 的智能体有哪些优势和劣势?

原文内容

整理 |华卫、核子可乐

OpenAI 新推出的 Deep Research 功能令人瞩目,但目前仅向订阅了 OpenAI 每月 200 美元 ChatGPT Pro 计划的用户提供。在该功能发布不到 24 小时后,来自人工智能开发平台 Hugging Face 的 5 名工程师,其中包括该公司联合创始人兼首席科学家 Thomas Wolf,表示他们打造出了 Deep Research 的免费开源版本。

该团队表示,Open Deep Research 能够自主浏览网页,滚动页面、处理文件,甚至利用数据进行计算。他们致力于改善体验,并已在 GitHub 上提供源代码以供检查和反馈。并且,Hugging Face 详细公开了 Open Deep Research 的完整开发过程,该团队的负责人日前也在采访中透露了更多幕后信息。

极限 24 小时“克隆”任务
凌晨 2 点设计出基础架构
早上 7 点接入 o1 模型
下午 3 点实现网页自主滚动技术
晚上 9 点完成文件动态解析模块

以上是该团队在 24 小时内所完成的事。与 OpenAI 的 Deep Research 以及谷歌依托 Gemini 打造的最早同名“Deep Research”(于去年 12 月首次发布,早于 OpenAI)类似,Hugging Face 的方案是为现有 AI 模型添加一套“智能体”框架,使其能够执行多步骤任务,例如在收集信息的同时构建报告、并最终展示给用户。

据该团队介绍, Open Deep Research 由一个人工智能模型(OpenAI 的 o1)和一个开源“代理框架”组成,后者可帮助该模型规划其分析并指导其使用搜索引擎等工具。该团队表示,“尽管众多优秀的大模型均以开源形式免费开放使用,但 OpenAI 并未透露太多有关 Deep Research 背后的代理框架的信息。因此,我们决定开始一项 24 小时的任务,以重现他们的结果,并在此过程中开源所需的框架!”

开源项目地址:https://github.com/huggingface/smolagents/tree/main/examples/open_deep_research

该团队要解决的对传统人工智能智能体系统的首要改进,是采用所谓的 “代码智能体”。其指出,让智能体用代码表达其行动有诸多优势,其中最显著的是,代码就是专门为表达复杂的行动序列而设计的。

根据 Roucher 的解释,Hugging Face 还重现了一个保证项目得以顺利运行的核心组件。他们使用 Hugging Face 的开源“smolagents”库占得先机,此库使用到所谓“编码智能体”而非基于 JSON 的智能体。这些编码智能体使用程序代码编写动作,据称这使其任务完成效率提高了 30%。如此一来,系统能够更加简洁地处理复杂的动作序列。

工具集方面,与其他开源 AI 应用一样,在外部贡献者的贡献和支持下,Open Deep Research 背后的开发人员不必将时间浪费在迭代设计身上,该团队借鉴了他人的工作成果,大大缩短了开发时长。虽然要达到最佳性能可能需要像 Operator 那样功能完备的网络浏览器交互,但目前为了初步验证概念,他们先从一个极其简单的基于文本的网络浏览器入手,并使用了用于读取多种文本文件格式的简易文本检查器。

这些工具取自微软研究院出色的 Magentic-One 智能体,该团队没有对其做太多改动,因为他们的目标是在尽可能降低复杂度的同时,获得尽可能高的性能。以下是他们认为能切实提升这些工具性能的短期改进路线图:

  • 增加可读取的文件格式数量。

  • 提出对文件更精细的处理方式。

  • 用基于视觉的浏览器替代现有的浏览器 。

不过,Hugging Face 团队也认识到,OpenAI 的深度研究工具或许受益于他们随 Operator 推出的出色网络浏览器。据该团队称,接下来他们我们打算打造图形用户界面(GUI)智能体,也就是 “能查看用户的屏幕,并能直接通过鼠标和键盘进行操作的智能体”。为此,他们正在招聘一名全职工程师来协助推进这个项目及更多工作。

背后模型的选择:
DeepSeek 和 o3 都试过了

如果没有现有 AI 模型充当其核心,AI 智能体根本无法发挥作用。目前,Open Deep Research 通过 API 站在了 OpenAI 旗下大语言模型及模拟推理模型的肩膀上。但除此之外,它也完全可以适应其他开放权重 AI 模型。其中的创新之处在于,Open Deep Research 的智能体结构可将所有内容整合在一起,并由 AI 模型自主完成研究任务。

来自 Hugging Face 并参与 Open Deep Research 项目的 Aymeric Roucher 对外透露了研究团队如何选择 AI 模型。“我们没有选择开放模型,因为研究发现封闭模型的效果更好。但我们会公开整个开发过程并展示代码。大家可以随意切换至任意其他模型,它支持完全开源的流程。”

Roucher 还补充说,“我尝试了多种大模型,包括 DeepSeek R1 和 o3-mini。单就本用例来看,o1 的效果最好。但随着后续启动 open-R1 计划,我们也会考虑用更好的开放模型取代 o1。”对于 o3-mini,该团队称,“它速度确实很快,但表现不如 o1 和 gpt - 4o。我想模型太小的话,应对艰巨任务还是不行。”谈到 DeepSeek R1,其表示,“它的表现不如 o1。这并非像许多大语言模型那样是因为 “笨”,更多是因为对框架指南的适配不足。所以我们在考虑通过微调来解决这个问题!”

虽然这套研究智能体的核心大模型或 SR 模型非常重要,但 Open Deep Research 表明构建正确的代理层才是关键,基准测试也证明多步骤代理方法大大提高了大语言模型的能力:OpenAI 的 GPT-4o 本体(无智能体代理框架)在 GAIA 基准测试中的平均得分为 29%,而 OpenAI Deep Research 则高达 67%。

值得注意的是,目前除 Open Deep Research 外,还有其他一些依赖于开源模型和工具的 OpenAI 深度研究工具 “复制品”,包括 node-DeepResearch 和 OpenDeepResearcher。但原版 Deep Research 由 o3 模型的一个版本提供支持,如果背后没有可与 o3 匹敌的模型支持,这些替代版可能无法与之相媲美。

在通用人工智能助手的基准测试 GAIA 上,Open Deep Research 获得了 54% 的准确率分数。相比之下,OpenAI 的深度研究工具得分是 67.36% 。Hugging Face 在说明帖中解释称,GAIA 测试包含复杂的多步骤问题,例如:

1960 年电影《惊险重重》中使用了真实远洋客轮作为拍摄道具。在该客轮 1949 年 10 月的早餐菜单中,有哪些水果出现在了 2008 年的画作《乌兹别克斯坦的刺绣》当中?将这些水果以逗号分隔的列表形式列出,从 12 点位置顺时针开始按它们在画中出现的顺序依次列举,注意使用名称的复数形式。

为了正确回答这类问题,AI 智能体必须搜索多个不同来源并将其组合成一条连贯的答案。GAIA 中的许多问题哪怕对于人类来说都相当困难,因此能够有效测试代理式 AI 的处理能力。

开源 AI 的惊人速度

虽然此次重现的开源研究智能体的性能似乎还无法真正与 OpenAI 相媲美,但它的出现至少让更多开发者获得了自由研究并改进该技术的可能性。同时,Open Deep Research 项目也展现了研究界快速重现并公开分享专有 AI 功能的能力,这些功能以往只能从商业提供商处获取。

有网友直呼,“这意义重大!开源替代方案正是人工智能领域所需要的。考虑到开发时间线,在 GAIA 基准测试中能达到 55% 的成绩已经相当令人瞩目了 —— 很期待看到它后续的发展。”

Roucher 总结称,“我认为这次的基准测试结果对于解决难题具有巨大的指导意义。但在速度和用户体验方面,我们的方案在优化水平上仍无法与专有成果比肩。”据其介绍,Hugging Face 的下一步改进计划不仅包括支持更多文件格式以及基于视觉的网页浏览功能,还在尝试克隆 OpenAI Operator,其可以在网络浏览器环境中执行其他多种类型的任务(如查看计算机屏幕并控制鼠标 / 键盘输入等)。

此外,Roucher 表示,“大家反响很好。有很多新的贡献者加入进来,并向我们提出了补充建议。这真的很有种在技术发展的浪头上弄潮的感觉,感谢社区提供的有力支持!”。对此有网友评价道,“这就是典型的史翠珊效应(注:指试图阻止公众了解某些信息,结果反而使该信息更加广为人知)。你惹恼了一群优秀的工程师,他们白天在公司整日编写代码,回家后晚上还接着免费编写代码。你告诉别人他们做不成某事,他们偏要做成。我们不需要 OAI(为 OpenAI 缩写)。”

值得一提的是,开源 AI 惊人的发展速度似乎也震慑到了一心想转向营利型的 OpenAI。此前在目睹 DeepSeek 火爆出圈后,OpenAI 的 CEO 萨姆·奥特曼(Sam Altman)就表态称,OpenAI 在开源 AI 方面“一直站在历史的错误一边”。今日凌晨,距离 Open Deep Research 推出不过两天,OpenAI 就发帖宣布,ChatGPT 搜索功能已正式向所有用户推出,无需注册或登录。也就是说,现在所有人都能用 ChatGPT 进行网络搜索了。

参考链接

https://huggingface.co/blog/open-deep-research

https://arstechnica.com/ai/2025/02/after-24-hour-hackathon-hugging-faces-ai-research-agent-nearly-matches-openais-solution/

https://techcrunch.com/2025/02/04/hugging-face-researchers-aim-to-build-an-open-version-of-openais-deep-research-tool/

 会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文




图片
你也「在看」吗?👇

与其说是冲击,不如说是促进。Open Deep Research 的开源可以吸引更多开发者参与进来,推动整个 AI 生态的发展,最终受益的还是 OpenAI。就像 Linux 和 Windows 的关系,两者互相竞争也互相促进。

代码智能体相较于 JSON 智能体,最大的优势就是复杂任务处理能力强,但也带来了更高的开发门槛,代码调试和维护更加复杂,对开发者的技能要求也更高。

我觉得可以探索一下多模态输入,例如整合图像、视频等信息,让 Open Deep Research 能够处理更复杂的研究任务。

针对“Open Deep Research 还有什么其他值得探索的改进方向?”这个问题,我认为可以从提高其自主学习能力入手。目前的 Open Deep Research 仍然依赖于预训练的模型,如果能够让它在使用过程中不断学习和进化,就能更好地适应不同的研究场景。

关于代码智能体,我认为它的优势在于灵活性更高,可以根据实际需求定制各种功能。劣势在于可维护性较差,代码修改和更新比较麻烦,而且容易出现 bug。

关于“Open Deep Research 还有什么其他值得探索的改进方向?”的讨论,我觉得可以考虑增强其与用户的交互性,比如加入更直观的操作界面和更丰富的反馈机制,让用户更容易上手和使用。

针对“代码智能体相比于传统的基于 JSON 的智能体有哪些优势和劣势”这个问题,我认为代码智能体的优势在于表达能力更强,能够处理更复杂的逻辑和流程。劣势在于代码编写和调试的难度较大,对开发者的要求更高一些。

OpenAI 的商业模式可没那么脆弱。Open Deep Research 虽然开源免费,但在性能和用户体验上还是与 OpenAI 的产品有一定差距,那些对性能和稳定性要求高的企业用户还是会选择 OpenAI。况且 OpenAI 也可以通过提供更高级的功能和服务来保持竞争力。

我觉得会的,Open Deep Research 的出现降低了使用门槛,那些原本因为价格原因无法使用 Deep Research 的个人开发者和小型企业现在有了新的选择,这必然会对 OpenAI 的付费用户造成一定分流。