OpenAI 推出深度研究功能,ChatGPT 可进行连续 30 分钟思考输出万字报告

OpenAI推出深度研究功能,ChatGPT可连续思考半小时输出万字报告,大幅提升研究效率。

原文标题:o3-mini之后,OpenAI又紧急上线Deep Research,能连续思考半小时输出万字回复!压力给到了DeepSeek?

原文作者:AI前线

冷月清谈:

OpenAI 紧急上线了一项名为“深度研究”(Deep Research)的功能,该功能允许 ChatGPT 进行多步骤研究、整合内容并进行推理,甚至可以提出澄清性问题。深度研究功能由即将推出的 o3 模型的一个版本驱动,针对网页浏览和数据分析进行了优化,可以处理现实世界中的复杂任务。它能够搜索、解读和分析来自互联网的文本、图像和 PDF 文件,并根据获取的信息进行调整。
该功能主要面向金融、科学、政策和工程等领域的高强度知识工作者,以及寻求个性化商品推荐的消费者。未来几周,OpenAI 还将在分析报告中添加嵌入式图片、数据可视化等内容。深度研究功能在一系列公开评估中取得了最高分,包括最近发布的“人类终极测试”(HIE)。多位专业用户对该功能表示肯定,认为它能够快速完成研究工作,并提供高质量的报告。

怜星夜思:

1、深度研究功能的出现,会不会导致信息茧房效应加剧?
2、o3 模型与之前的 GPT 模型相比,最大的进步在哪里?
3、深度研究功能的收费模式会对用户的使用体验产生什么影响?

原文内容

整理 | 华卫

今早,OpenAI 突然举行了一场“惊喜”直播。直播中,OpenAI 宣布,“我们正在推出一项名为深度研究(Deep Research)的功能,这是一个能进行多步骤研究的模型,它可以发现内容、整合内容,并对这些内容进行推理。它甚至会针对你的提示提出‘澄清性’问题,以确保其多步骤研究不偏离方向。”

据介绍,这项深度研究功能将于今日晚些时候在 ChatGPT 专业版中推出,并将逐步应用到 OpenAI 的其他产品中。并且,据OpenAI CEO Sam Altman 透露,免费用户也能获得非常少量的使用额度。

紧急推出 Deep Research,还将进一步可视化

4 点 27 分,OpenAI 在 X 上向其 390 万粉丝发布了直播通知。在直播开始前,X 平台的用户分享了他们对即将到来的新功能的反应:“这就像 DeepSeek,但更简洁。”“要是这东西搞砸了,就会深陷麻烦。”“从东京直播?希望这项研究能包含早起的秘诀!”“别费劲了,我们不信任你。”

三个多小时后,OpenAI 开始直播。

据介绍,深度研究功能(Deep Research)是一项全新的智能代理能力,可针对复杂任务在互联网上开展多步骤研究,能在几十分钟内完成人类需要花费数小时才能完成的工作。只需给出提示,ChatGPT 便会查找、分析并综合数百个在线信息源,生成一份达到研究分析师水准的全面报告。

OpenAI 称,这项功能由即将推出的 o3 模型的一个版本驱动,该版本针对网页浏览和数据分析进行了优化,运用推理能力在互联网上搜索、解读和分析海量文本、图像及 PDF 文件,并根据所获取的信息按需灵活调整。

也就是说,深度研究能独立发现、思考并整合来自网络各处的见解。为实现这一点,OpenAI 针对需要使用浏览器和 Python 工具的现实任务进行训练,采用的强化学习方法与其首个推理模型 o1 相同。o1 在编码、数学及其他技术领域展现出令人赞叹的能力,但许多现实世界的难题需要从多样的在线资源中收集大量背景信息。深度研究功能则弥补了这一差距,使其能够处理人们在工作和日常生活中遇到的各类问题。

OpenAI 强调,深度研究功能是为那些在金融、科学、政策及工程等领域从事高强度知识工作,且需要深入可靠研究的人打造的。对于那些在购买需仔细研究的商品时,寻求高度个性化推荐的精明消费者而言,该功能也很有用。

在接下来的几周内,OpenAI 还将在深度研究功能所生成的分析报告中添加嵌入式图片、数据可视化以及其他分析输出,以进一步提升清晰度并提供更多背景信息。在 OpenAI 看来,深度研究功能朝着其开发通用人工智能(AGI)的宏大目标迈出了重要一步。

能力刷新全球最高分,获专业使用者好评
驱动深度研究功能的模型在一系列针对现实问题的公开评估中创下了新高,包括最近发布的“人类终极测试”(Humanity's Last Exam,HIE)。

在 HIE 上,OpenAI 的深度研究功能刷新了最高分,比 o3-mini 高推理设置分数还高出一倍。据了解,HLE 是一项全球合作项目,问题包括 3000 多个多项选择题和简答题,涵盖从语言学到火箭科学、古典文学到生态学等 100 多个学科,出题人来自 50 个国家 / 地区的 500 多个机构的近 1000 名学科专家,其中大部分是教授、研究人员和研究生学位持有者。

在实际测试中,有不少专业用户表达了对 OpenAI 这项深度研究功能的肯定。一位研究人工智能的沃顿大学教授 Ethan Mollick 将其与谷歌 Gemini 进行对比后表示,谷歌的同类功能只是对众多信息源进行汇总,OpenAI 的功能更像是让一位见解独到(往往近乎博士水准!)的研究人员去追踪线索。

多伦多大学罗特曼学院战略管理副教授、AllDayTA 联合创始人 Kevin A. Bryan 则使用撰写了一篇经济学的论文初稿,对生成内容的评价是:“它仅凭一次指令能做到什么程度呢?说实话,还不错。老实讲,我审阅过的一些论文都比不上它这次的成果。从这一步迈向大幅加快研究进度的阶段,路径已经相当清晰了。”

Bryan 表示,在试用 Operator,以及谷歌和 OpenAI 的深度研究功能后,能够访问受限文档以及大幅优化的 PDF 内文光学字符识别(OCR)功能将具有重大意义。回过头看,那场导致谷歌图书相关功能夭折的诉讼,似乎给人类和科学带来了巨大损害。

第三方团队 every 也分享了他们的测试结果,据其 CEO Dan Shipper 介绍,他们已经使用了几天,通过撰写公司详尽历史、阅读《战争与和平》第一章并分析托尔斯泰对人物的描写和反映的人性观、梳理近期美国上市公司年报找出未披露的财务违规行为、根据几张照片研究并搭配出一整套全新衣橱这几件事,得出了以下结果:

  • 对于求知欲旺盛的人来说,它就像一把强力武器:提出一个问题,它会自主在网络(或你提供的信息源)中搜索,整理出答案。它会通过多个步骤完成这项工作,回复时间在 1 到 30 分钟之间。它会给出经过深入研究的长篇报告,这些报告综合了许多不同信息源的内容,有时篇幅超过一万字。
  • 可以把它想象成一辆双层观光巴士,但你是唯一的乘客,而你游览的“城市”就是人类知识的总和。
  • 当然,它也有局限性:有时它不能完整说明某条信息的来源;目前还没有“停止”按钮,所以如果它偏离方向,你就得重新开始。
顶尖 AI 厂商都将加入开源竞争?

对于 OpenAI 的这次发布,有网友评价道,“想象一下,一款估值数十亿美元的开源产品,却免费满足了客户 95% 的需求。这时候肯定得全体总动员,才能防止投资者彻底恐慌失控。这局面就像划船,可不好应对。”

还有网友认为,“这有点像 20 世纪 90 年代 Linux 与 Windows 的竞争情况。我猜用不了多久,OpenAI、Gemini、Meta 和 Grok 都会推出轻量级开源引擎,供爱好者把玩。实际上,Grok 的引擎已经开源了。”

但据一位 X 平台用户指出,OpenAI 之前就用过“深度研究”这个说法。2024 年 7 月,路透社报道了一份内部文件(经“一位知情人士”证实),其代号为“草莓”,该文件表明 OpenAI 正在研究“类人推理技能”。这位知情人士称,即使在 OpenAI 内部,“草莓”的工作原理也是严格保密的。消息人士称,该文件描述了一个使用“草莓”模型的项目,其目标是让该公司的人工智能不仅能生成问题的答案,还能提前规划,以便可靠地自主浏览互联网,进行 OpenAI 所谓的“深度研究”。据对十几位人工智能研究人员的采访,这是人工智能模型至今尚未实现的。

“草莓”项目曾用名是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。知情人士称,OpenAI 希望这项创新能大幅提升其人工智能模型的推理能力,并补充说,“草莓”涉及一种在人工智能模型经过超大型数据集预训练后对其进行处理的特殊方式。

OpenAI 首席执行官奥特曼今年早些时候表示,在人工智能领域,“最重要的进步领域将围绕推理能力展开。”路透社采访的研究人员也表示,推理能力是人工智能实现人类或超人类水平智能的关键。

参考链接:

https://openai.com/index/introducing-deep-research/

 会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文





图片
你也「在看」吗?👇


从文章来看,o3 模型在处理现实世界问题上的能力有了显著提升。它可以利用浏览器和 Python 工具,这使得它能够访问和处理更广泛的信息来源,并解决更实际的问题,例如深度研究功能的实现。

这个问题提得很好!深度研究功能确实可能加剧信息茧房效应。它基于互联网信息进行分析,而互联网信息本身就存在偏见和不完整性。如果用户过度依赖该功能,可能会导致对特定观点的过度强化,从而限制了对其他观点的接触和理解。为了避免这种情况,用户需要保持批判性思维,并积极寻求多元化的信息来源。

o3 模型最大的进步应该在于推理能力和多步骤研究的能力。之前的 GPT 模型虽然也能生成文本,但更像是“鹦鹉学舌”,缺乏深度思考。o3 模型则更像一个“研究员”,可以主动搜索、分析和整合信息,并进行推理,这在之前的模型中是难以实现的。

个人理解,o3 模型的进步在于它更接近“理解”了。它不仅仅是根据统计规律生成文本,而是能够理解任务的上下文,并主动寻找相关信息进行分析。这就好比从背诵课文到理解课文,是一个质的飞跃。

我觉得有可能,深度研究功能虽然强大,但信息来源还是互联网,如果信息源本身存在偏差,那结果肯定也会受影响。就像我们平时用搜索引擎一样,看到的都是算法推荐的内容,长此以往,接触到的信息面就窄了。

从技术角度来看,信息茧房的形成与推荐算法的“过滤气泡”机制有关。深度研究功能也依赖于算法,所以理论上存在加剧信息茧房的可能性。但 OpenAI 强调深度研究功能会进行多步骤研究,并整合不同来源的信息,或许能部分缓解这个问题。关键还是看算法的设计和实际应用效果。

收费模式有利有弊吧。一方面,可以保证 OpenAI 的持续研发投入,另一方面,也可能会导致一部分用户流失。不过,OpenAI 提供了免费额度,应该也是为了平衡用户需求和商业利益。

关于“深度研究功能的收费模式会对用户的使用体验产生什么影响?”这个问题,我觉得关键看定价策略。如果价格合理,功能又确实强大,相信会有很多用户愿意付费。但如果价格过高,或者功能与预期不符,用户体验肯定会受到影响。

收费模式肯定会影响一部分用户的体验。毕竟不是每个人都愿意或能够支付专业版的费用。免费用户的使用额度有限,可能无法充分体验深度研究功能的强大之处,这可能会限制深度研究的普及程度。