OpenAI 发布 Deep Research:深度研究智能体,开启 AI 研究新篇章

OpenAI 推出 Deep Research,一个深度研究智能体,可综合在线信息完成复杂研究任务,标志着 AI 研究新篇章。

原文标题:刚刚,OpenAI上线Deep Research!人类终极考试远超DeepSeek R1

原文作者:机器之心

冷月清谈:

OpenAI 推出了全新深度研究智能体 Deep Research,它能够综合大量在线信息,完成多步骤研究任务,为用户提供深度、复杂的信息查询和分析服务。目前 Pro 用户已可使用,未来将向 Plus、Team 和 Enterprise 用户开放。

Deep Research 基于即将推出的 o3 模型,该模型针对网页浏览和数据分析进行了优化,可以搜索、解释和分析互联网上的文本、图像和 PDF,并根据信息进行调整。OpenAI 认为,综合知识是创造新知识的前提,Deep Research 是迈向 AGI 的重要一步。

Deep Research 尤其适合金融、科学、政策、工程等领域需要深入研究的用户,以及寻求个性化推荐的消费者。它能够提供完整的记录、清晰的引文和思路摘要,方便用户引用和验证信息。它还擅长查找分散在多个网站的小众信息。

在 ChatGPT 中,用户可以选择 deep research 并输入查询,Deep Research 会在 5 到 30 分钟内完成研究,并将结果以报告的形式呈现。未来,报告中还会添加图像、数据可视化等内容。相较于 GPT-4o 更适合实时多模态对话,Deep Research 则更适合需要深度和细节的特定领域查询。

Deep Research 通过端到端的强化学习在多个领域的复杂浏览和推理任务上进行了训练,学会了规划和执行多步骤轨迹,并能浏览用户上传的文件,使用 Python 工具绘制图表。在“人类终极考试”评估中,Deep Research 以 26.6% 的准确率创下新高;在 GAIA 基准测试中,也达到了新的 SOTA 水平。

Deep Research 目前仍处于早期阶段,存在一些局限性,例如偶尔出现幻觉或错误推断,以及报告格式错误等问题。OpenAI 表示,这些问题会随着使用和时间的推移而得到改善。

怜星夜思:

1、Deep Research 的出现会对哪些职业造成冲击?
2、Deep Research 引用资料的准确性和可信度如何保证?如何避免学术造假?
3、Deep Research 的推理能力与人类相比还有哪些差距?未来有哪些发展方向?

原文内容

机器之心报道
机器之心编辑部

一觉醒来,OpenAI 又发新产品了,这次是面向深度研究领域的智能体产品 ——「Deep Research」。


具体来讲,这是一个使用推理来综合大量在线信息并为用户完成多步骤研究任务的智能体,旨在帮助用户进行深入、复杂的信息查询与分析。目前,Pro 用户现已可用,接下来还将开放给 Plus 和 Team 用户使用。

图片

图片

有了这个新的智能体,用户将可以在 ChatGPT 中开启深度研究,在几十分钟内完成人类需要数小时才能完成的工作。

作为 OpenAI 的下一代智能体,Deep Research 可以独立为用户工作。用户给它一个提示,ChatGPT 将查找、分析和综合数百个在线资源,以研究分析师的水平创建一份综合报告。Deep Research 由即将推出的 o3 模型的一个版本提供支持,该模型针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的大量文本、图像和 PDF,并根据需要根据遇到的信息做出调整。

OpenAI 表示,综合知识的能力是创造新知识的先决条件。因此,Deep Research 标志着 OpenAI 朝着开发 AGI 的更广泛目标迈出了重要一步。OpenAI 长期以来一直设想 AGI 能够产生新颖的科学研究。

从大家的反应来看,OpenAI 这次的智能体产品切中了用户的需求,甚至有人认为这是迈向智能体 AI 的重要里程碑。


OpenAI 的 Deep Research 通过搜索网络并将知识综合成研究论文,这种自主研究标志着 AI 进入到了自我发现新知识的下一步。

图源:X@tsarnick

构建 Deep Research 的目的

Deep Research 是为那些在金融、科学、政策和工程等领域从事密集知识工作并需要彻底、精确和可靠研究的用户而量身打造的。

同时,Deep Research 对于寻找超个性化推荐的挑剔购物者同样有用,这些推荐通常需要仔细研究才能购买如汽车、家电和家具。每个输出都经过完整记录,并附有清晰的引文和思路摘要,以便于引用和验证信息。同样地,Deep Research 在查找需要浏览大量网站的小众、非直观信息方面也特别有效。

总之,Deep Research 让用户只需一个查询即可加快复杂、耗时的网络研究,从而释放宝贵的时间。

此外,Deep Research 能够独立发现、推理和整合来自网络的见解。为了实现这一点,它接受了需要使用浏览器和 Python 工具的现实任务的训练,使用了 OpenAI 第一个推理模型 o1 背后的相同强化学习方法。虽然 o1 在编码、数学和其他技术领域表现出令人印象深刻的能力,但许多现实世界的挑战需要从各种在线来源收集广泛的背景和信息。Deep Research 利用这些推理能力来弥补这一差距,使其能够解决人们在工作和日常生活中面临的各类问题。

如何使用 Deep research

在 ChatGPT 中,选择「message composer」中的 deep research 并输入查询。告诉 ChatGPT 你需要什么 —— 无论是关于流媒体平台的竞争分析,还是关于最佳通勤的个性化报告都可以。甚至你也可以附加文件或电子表格,为问题添加上下文。一旦开始运行,侧边栏将显示所采取的步骤和使用的来源摘要。

Deep research 可能需要 5 到 30 分钟的时间来完成其工作,因为它需要深入挖掘网络信息。在此期间,用户可以离开或处理其他任务 —— 任务完成后你会收到通知。最终结果将以报告的形式出现在聊天中 —— 在接下来的几周内,OpenAI 还将为这些报告添加嵌入的图像、数据可视化和其他分析输出,以提供更清晰的说明和上下文。

与 deep research 相比,GPT-4o 更适合实时的多模态对话。对于需要深度和细节的各个方面、特定领域的查询,deep research 能够进行广泛的探索并引用每个声明。

下面是一些 GPT-4o 与 deep research 对比。

大海捞针。

询问 GPT-4o:「前段时间我看过一部电视剧。我忘了名字,但我记得其中一集发生了什么。你能帮我找到名字吗?以下是我记得的一集内容:

两个男人玩扑克。一个弃牌,另一个让他下注。弃牌的人实际上手牌很好,但被骗了。第二手牌,同一个人再次弃牌,但这次手牌很糟糕

请深入浏览网页,找到发生此事的电视剧集。」

GPT-4o 回答:「根据您提供的详细信息,您似乎指的是电视剧《仆人》中的一集。这部剧由 Tony Basgallop 创作,M. Night Shyamalan 担任执行制片人,于 2019 年在 Apple TV+ 上首播。故事围绕一对费城夫妇展开,他们在经历了巨大的损失后,雇佣了一名年轻保姆,导致他们家中发生了一系列令人不安的事件……」

询问 deep research 同样的问题,其给出的答案:「您所描述的三个事件都发生在 Starz 系列剧《Counterpart》第一季第四集,标题为 Both Sides Now。在这一集中……」

以下是完整过程:

图片

在上述例子中,deep research 被赋予了一个模糊的查询,即使对人类来说也很难找到答案,因为没有关键词能够轻易揭示查询的答案。deep research 能够以创造性和持久性的方式进行搜索,直到找到一个完全符合条件的结果。

类似的对比还有通用知识(general knowledge)的查询:「NFL 球员的平均退休年龄是多少?」

图片

在这个例子中,deep research 提供了需要考虑的组成部分和因素,而不仅仅是一个数字。它更加全面,提供了清晰的统计背景,使用了支持性的例子,并直接解释了射门员相对于其他位置球员职业生涯较长的原因。这种细节和清晰度使得 deep research 更具信息量,并更直接地回应了那些希望了解 NFL 退休年龄趋势的人的需求。

如何工作

Deep Research 通过端到端的强化学习在多个领域的复杂浏览和推理任务上进行了训练。通过这种训练,它学会了规划和执行多步骤的轨迹,以找到所需的数据,并在必要时回溯和实时响应信息。

Deep Research 还能够浏览用户上传的文件,使用 Python 工具绘制和迭代图表,在生成的图表和从网站获取的图像中嵌入其响应,并引用其来源中的特定句子或段落。得益于这种训练,Deep Research 在多个专注于现实世界问题的公开评估中达到了新的高度。

人类终极考试(Humanity’s Last Exam)

对于最近发布的「人类终极考试」评估,在专家级问题上对广泛学科的人工智能进行了测试,支持 Deep Research 的模型以 26.6% 的准确率创下了新高

这项测试包括 3,000 多个多项选择题和简答题,涵盖了从语言学到火箭科学、古典文学到生态学的 100 多个学科。与 o1 相比,进步最大的是化学、人文和社会科学以及数学。支持 Deep Research 的模型展示了一种类人方法,可以在必要时有效地寻找专业信息。


GAIA 基准测试

在评估人工智能在现实问题上表现的公共基准 GAIA 上,支持 Deep Research 的模型达到了新的 SOTA 水平,位居排行榜榜首。这些任务涵盖三个难度级别的问题,成功完成需要具备推理、多模式流畅性、网页浏览和工具使用熟练等能力。


我们来看一个 GAIA 任务示例:

图片

专家级别的任务

在对各个领域专家级任务进行的内部评估中,领域专家认为 Deep Research 可以自动完成数小时的艰难手动调查


以下两图分别为专家级任务的通过率(按估计经济价值计算)以及专家级任务的预计小时数通过率。



专家级别的任务示例如下:

图片

ChatGPT 中的 Deep research 目前对计算资源的需求非常高。research 一个查询所需的时间越长,耗费的推理计算资源就越多。

从现在开始,OpenAI 推出了针对 Pro 用户优化的版本,每月最多可进行 100 次查询。接下来将会向 Plus 和 Team 用户开放,随后是 Enterprise 用户。

目前,Deep research 功能已在 ChatGPT 网页版上线,并将在本月内逐步推广到移动和桌面应用程序。目前,Deep research 可以访问开放的互联网以及任何上传的文件。未来,将能够连接到更多专业的数据源。

现在看来,Deep research 能够进行异步的在线查找,而 Operator 则能够在现实世界中采取行动,两者的结合将使 ChatGPT 能够为用户执行越来越复杂的任务。

不过,值得一提的是,Deep research 目前仍处于早期阶段,并且存在局限性。根据内部评估,它有时会在响应中产生幻觉或做出错误推断,但发生率明显低于现有的 ChatGPT 模型,它可能难以区分权威信息和谣言。在发布之际,Deep research 报告和引文中可能会出现轻微的格式错误,任务可能需要更长时间才能启动。所有这些问题都会随着使用和时间的推移而迅速改善。

博客地址:https://openai.com/index/introducing-deep-research/

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



关键还是看 OpenAI 如何设计 Deep Research 的算法和训练数据集,如果数据集本身就存在偏差或者错误信息,那生成的报告肯定也靠不住。

也不一定都是负面影响,Deep Research 可以把人从繁琐的信息收集工作中解放出来,专注于更高层次的分析和思考,说不定还能催生一些新的职业呢。

对法律工作的影响不可忽视, 法律检索与案例分析的工作量巨大, Deep Research在这方面或许能大幅提升效率.

文中提到了Deep Research在“人类终极考试”中的准确率只有26.6%,这说明它的推理能力与人类还有很大差距,特别是在需要创造性思维和复杂问题解决的领域。

我觉得可以引入类似区块链的技术,对 Deep Research 使用的数据和生成的报告进行存证,这样就能追溯来源,防止篡改和造假。

引用来源的质量也需要关注,Deep Research能否有效识别和过滤掉低质量、不可靠的信息源,对最终结果的可信度至关重要。

文章里提到 Deep Research 会提供完整的记录、引文和思路摘要,方便验证,但具体效果如何还有待观察。如果能做到像学术论文那样严格的引用规范,可信度应该会比较高。

未来 Deep Research 可以尝试与其他 AI 模型结合,比如结合图像识别、自然语言生成等技术,实现更全面的信息处理和分析能力。

个人觉得冲击最大的反而是内容创作行业,以后Deep Research直接生成各种文章、报告,那写手和小编可就真的危险了。

人类的推理能力不仅仅是逻辑推理,还包括情感、直觉、创造力等方面,这些是目前 AI 难以模拟的。Deep Research 未来可能需要在这方面进行突破。

从文章中的例子来看,Deep Research 似乎还停留在信息收集和整理的阶段,真正的推理和分析能力还有待提高。比如,它能找到电视剧集的名称,但并不能理解剧情背后的含义。

不仅仅是研究助理吧,像市场调研、咨询顾问、甚至一些记者编辑,都可能受到影响。以后可能只需要提需求,Deep Research 就能生成一份完整的报告了,想想还挺可怕的。

避免学术造假是个难题,Deep Research 本身只是个工具,关键在于使用者如何使用。就像现在用搜索引擎写论文一样,如果直接复制粘贴肯定算抄袭,但如果只是参考借鉴,并注明出处,就没问题。

我觉得首当其冲的可能是研究助理、数据分析师这类需要大量信息收集和整理工作的职业。Deep Research 能快速完成这些任务,效率肯定比人工高得多。

我觉得可以往个性化定制的方向发展,根据不同用户的需求和专业背景,提供更精准的研究结果。