DeepSeek研究员用AI Agent合写综述:自主科研智能体走到哪一步了?

DeepSeek研究员用AI合写综述,系统梳理自主科研智能体的等级、架构与未解难题。

原文标题:刚刚,DeepSeek陈德里与两个AI,合写了一篇论文

原文作者:机器之心

冷月清谈:

DeepSeek研究员陈德里近日分享了一篇由AI Agent深度参与完成的综述《From Copilots to Colleagues》。这篇文章并非严格学术论文,更像一次个人实验:他用自研的Deli AutoResearch SKILL框架,配合DeepSeek-V4-Pro和GPT-Image2完成写作与配图,过程中约经历108轮Agent交互,消耗64.8万tokens,初稿耗时76分钟,总迭代6天。

文章聚焦“自主科研智能体”,即AI从文献检索、假设提出、实验设计、代码执行到论文撰写的端到端科研能力。综述提出L1到L5的自主等级:从代码补全、任务执行、多步自主,到端到端全自动研究,再到尚未实现的自主设定研究议程。

文中还归纳了四类主流架构:单智能体循环、多智能体协作、层级编排和工具增强执行,并指出当前系统多处于L4,L5仍是愿景。与此同时,认知死循环、上下文限制、新颖性评估、可重现性、安全伦理和成本可及性,仍是自主科研智能体面临的核心难题。

怜星夜思:

1、如果AI能端到端写论文,未来论文数量会不会“通胀”到难以筛选?
2、自主科研智能体要到L5,最难跨过去的坎是什么?是技术、成本,还是安全伦理?
3、这类AI Agent写出来的综述,应该算谁的成果?人类作者、模型开发者,还是工具共同贡献?
4、如果AI科研能力主要掌握在大公司和少数机构手里,会不会扩大科研不平等?

原文内容

图片
机器之心编辑部

「借助 CodeAgent,我终于可以重新捡起很多过去因为精力不足而搁置的事情了,写博客就是其中之一。这篇博客大概 1% 是我写的,99% 是 Agent 写的 😂」。


刚刚,DeepSeek 研究员陈德里(Deli Chen)在 X 上分享了一篇由 AI Agent 深度参与完成的文章「From Copilots to Colleagues: A Survey of Autonomous Research Agents」。



文章地址:https://victorchen96.github.io/auto_research_survey.pdf


陈德里也特别说明,这篇文章更多是一次兴趣驱动的尝试:一方面是出于好玩,另一方面也是为了测试自己开发的 DeliAutoResearch 技能。因此,它并不是一篇严格意义上的学术论文,文中观点也仅代表个人,不代表任何公司或组织立场。


这篇论文一共迭代了 6 轮(V1:4 轮,V2:1 轮,V3:1 轮),V1 初稿耗时 76 分钟,总耗时 6 天。大约经历了 108 轮 Agent 交互,消耗约 64.8 万 tokens,LaTeX 共 2234 行。


103 篇参考文献,全部已核验。篇幅从 45 页增加到 46 页。包含 7 张图和 4 张表。现在论文一共 46 页,文件大小 538KB。😂


完成这篇文章后,陈德里也由此抛出了一个颇有意思的判断,他形容为个人暴论:Code Agent 正在让计算机科学论文发生疯狂通胀 —— 过去同样的工作,至少要花一个月。


陈德里表示,在这个过程里真正动脑消耗的「总 CPU 」时间:不到 2 小时



简单介绍一下,第一作者陈德里来自 DeepSeek,是 V1、V2、V3、V4、R1、DeepSeek-Coder 和 DeepSeek-MoE 架构的核心贡献者之一。他还曾在世界互联网大会上代表 DeepSeek 发言。



博客地址:https://victorchen96.github.io/


另外两位「合著者」,一位是 DeepSeek-V4-Pro,一位是 GPT-Image2—— 前者负责文字,后者负责图像


也就是说,这篇论文本质上是陈德里用 AI 写了一篇关于 AI 做科研的综述。这个设定也是一个重要的实验:陈德里搭建了一个他称为「Deli AutoResearch SKILL」的自主科研智能体框架,这篇 45 页的文章的部分内容正是用它生产出来的。此外,他还在论文中声明:这篇综述是他以「个人研究项目」名义发布的,观点不代表任何公司立场。


图片


研究者本身成为了研究对象。这件事意味着什么,论文的其余部分会慢慢说清楚。


综述覆盖了超过 95 篇论文,系统分析了 17 个主流系统,试图为一个混乱生长的领域第一次画出清晰的地图。这个领域叫做「自主科研智能体(Autonomous Research Agents)」:给 AI 一个科研目标,它能独立完成从假设提出、实验设计、代码执行、结果分析到论文撰写的完整循环,全程无需人类在每一步审批。



这已经不是设想。就在过去 18 个月里,衡量软件工程能力的 SWE-bench 基准上,AI 解决真实 GitHub 问题的比率从不足 5% 攀升至 70% 以上;有系统以每篇 15 美元的成本产出完整学术论文并通过了人类初审;还有系统在无人引导的情况下,发现了超越已知边界的新数学构造。



AI 正在从「研究工具」变成「研究者」本身,速度之快出乎所有人的预料。


背景:「副驾驶」还是「同事」?


要理解这场变革的意义,不妨先想象一位传统的科研助理:给他一个课题,他能帮你检索文献、整理表格、执行代码。但你需要告诉他每一步怎么做,他遇到问题会停下来等你指示,他不会主动思考「接下来研究什么更有价值」。


这是过去几年 AI 扮演的角色 —— 副驾驶(Copilot)。方向盘,始终在人类手里。


现在正在发生的是一场「交权实验」。新一代智能体系统正在尝试独立完成完整的科研循环:提出假设、设计实验、执行代码、分析结果、撰写报告,甚至自我审阅和迭代。从头到尾,无需人类在每一步批准。


这种转变有多快?研究者们描述它「迅速而决定性」:短短 18 个月,便从工具进化到了同事。


但「同事」的含义也差别悬殊。有的系统只是能跑完一段代码不报错;有的则可以在机器人实验室里独自合成化合物。要给这片混乱的版图建立秩序,需要一套统一的语言。这正是这篇综述的核心贡献。


核心贡献一:为「自主程度」建立五级分类


这篇综述最重要的贡献是提出了一套 L1 至 L5 的自主等级分类体系,类比汽车驾驶自动化的 SAE 标准:



L1(自动补全),是最常见的状态。GitHub Copilot、各类代码补全工具都在此列。AI 预测下一行代码,但你掌控一切方向。生产力提升约 30% 至 55%,代价是毫无自主性。


L2(任务执行),是现在大多数人用 ChatGPT、Claude 日常交互的层级。AI 能分解任务、调用工具,但每一步都需要你点头认可。你是策略决策者,AI 是执行者。


L3(多步自主,设有检查点),是当前主流「智能体编程工具」的位置 ——Claude Code、Cursor Agent 属于这一层。AI 能在设定的检查节点前独立执行数十步操作,出了预定范围才来找你确认。人类保持战略监督,但不必过问每个细节。


L4(端到端全自动),是当前技术前沿。Devin、SWE-Agent、AI Scientist 都在这里。给它一个科研目标,它能独立工作数小时乃至数天,产出完整成果。你只需要在最后评估结果。综述中分析的 17 个主要系统,最高均处于 L4。


L5(自主设定研究议程),目前仍是「愿景」。这一层级的系统不只执行研究,还能自己选择研究什么问题、分配资源、在数周到数月的时间跨度里持续积累知识。没有任何现有系统完整实现了 L5,但一些苗头已经出现:Google 的 Co-Scientist 具备部分自主假设生成能力,DeepMind 的 FunSearch 通过迭代程序搜索发现了真正的数学新知。



这套分类描绘了一条清晰的演化路径:从「帮你干活」到「替你思考」,每一级之间横亘着什么样的技术鸿沟。



核心贡献二:四种架构模式的得与失


知道「系统自主到什么程度」还不够,还需要理解「它是怎么做到的」。综述归纳了当前主流的四种智能体架构。



单智能体循环,是最简洁的形态:一个模型反复「计划 — 行动 — 观察 — 反思」。像一位独自工作的研究员,想好了就动手,看到结果再调整。好处是简单可控,缺点是遇到复杂任务容易触及上限。就像一个人同时负责所有工种,体力和注意力都会先撑不住。



多智能体协作,相当于组建团队。不同智能体分工扮演不同角色,相互审核和补充。MetaGPT 走得更远:它把标准作业流程(SOP)编码进多智能体协作中,就像一家软件公司,产品经理、架构师、工程师、测试员各司其职,通过规范化文档交接,而非自由聊天。结果是任务完成率从 67% 跃升至 100%。


层级编排,是「管理者 - 执行者」模式的技术实现。一个高层智能体分解目标、分配任务,多个专项子智能体各自负责具体执行并汇报结果。Claude Code 采用这一架构:主智能体维持全局状态和高层规划,遇到文件编辑或网页搜索之类的具体任务,便派出子智能体独立完成,避免无关信息污染主体判断。


工具增强执行,是「给智能体配备外部手脚」—— 代码执行环境、网络浏览、数据库查询、实验室机器人控制接口……ChemCrow 集成了 18 种化学专用工具,让模型从「知道怎么回答化学问题」升级到「能真正操作化学流程」。化学问题的正确率因此从原始 GPT-4 的不足 30% 跳升至 75%。


这四种架构各有擅长,没有哪一种全面碾压其他。现实中最强大的系统,往往是将它们混合使用:层级编排负责统筹,工具增强负责执行,多智能体协作负责质量审核,单智能体循环负责具体推理。


核心贡献三:六大未解难题


综述最诚实的部分是直面这个领域仍无解的困境。



认知循环陷阱:智能体陷入死循环 —— 反复执行同一个失败操作,却意识不到自己在原地打转。AutoGPT 因此声名狼藉:进入无限循环是它最常被提及的缺陷。目前没有通用的系统性解决方案,大多数「反循环」机制靠的是特定任务的手工调参。


上下文窗口限制:模型的「工作记忆」是有限的。一次长时间科研会话可能产生十万个以上的词元(token),超出窗口范围的早期信息便永久消失。层级编排能缓解这个问题,但仍难以真正实现跨会话的「研究记忆」。


新颖性评估:AI 产出的研究成果,如何判断它是否真正新颖?引用量预测受社会因素干扰,语义相似度又无法区分「新颖」和「偏僻冷门」。目前能做到客观验证的,只有像 FunSearch 那样用程序输出量化衡量的极少数领域。


可重现性危机:同样的系统、同样的任务,每次运行结果可能大相径庭。基准测试上的性能数字,标准差动辄达到 5% 至 15%。如何在随机性和严谨性之间找到平衡,目前尚无定论。



安全与伦理:能自主设计化学合成方案的系统,同样可能被引向危险化合物。这不只是「加一个过滤器」就能解决的工程问题,而是一个根本性的架构矛盾 —— 对益处有用的能力,往往和对害处有用的能力难以分离。


成本与可及性:解决一个 SWE-bench 任务的 API 费用,约在 5 至 50 美元之间;完整的科研流程则可能消耗数百至数千美元。最强大的基础模型仍是专有的、昂贵的。如果自主科研能力只属于资源雄厚的机构,那么它加速的,也可能是科研不平等而非科研本身。


结语


综述覆盖了超过 95 篇论文,详细分析了 17 个主要系统。结论清醒而审慎:当前最好的系统处于 L4,L5 仍是愿景;代码类任务已有相当成熟的自动化能力,真正意义上的开放科学发现仍停留在演示阶段。


论文的最后写道:「L5 自主研究 —— 能够自主制定长期研究议程的智能体 —— 是一个『何时』而非『是否』的问题。研究社区的任务是确保这一转变伴随着充分的理解、适当的保障,以及公平的收益分配。」



这句话出自一位参与构建了 DeepSeek-R1 的研究员和两个 AI。他们共同写下了这段对自身未来的警示。


这本身就是一件值得细想的事。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我回答“论文会不会通胀”这个问题:大概率会,而且已经有苗头了。以前限制论文数量的是人的时间和精力,现在如果初稿、实验脚本、图表都能自动跑,投稿门槛会被拉低。真正稀缺的可能不再是“写出一篇论文”,而是“提出一个值得研究的问题”和“证明它真的可靠”。

2 个赞

我看到这个问题第一反应是:以后论文作者栏可能变成‘张三、李四、Claude、DeepSeek,通讯作者:人类背锅’。玩笑归玩笑,核心还是责任归属。AI可以帮忙干活,但出了幻觉引用、错误结论,期刊肯定不会去找模型开会。

2 个赞

这个问题说白了就是:别人开科研高铁,你还在骑共享单车。如果AI Agent真能把一个月的活压到一天,那预算差距会直接变成产出差距。以后申请经费可能不只写买GPU,还要写‘本课题组急需若干AI同事’。

3 个赞

关于“AI综述算谁的成果”,我倾向于仍然算人类作者的成果,但需要充分披露AI参与方式。因为选题、把关、最终责任目前还是人在承担。模型可以列入致谢或方法说明,但不应像人一样承担署名责任,毕竟它不能为错误负责。

1 个赞

说到L5,我的感觉是:最难的是“科研品味”。会做题和会选题是两回事。很多博士毕业后还在学怎么判断一个方向有没有价值,AI想一步到位当PI,多少有点‘刚学会走路就想开组会’。

2 个赞

回答“会不会扩大科研不平等”:会,而且可能很明显。强模型、算力、API预算、私有数据都集中在少数机构,小团队和发展中国家的研究者可能连试错成本都负担不起。AI本来有机会降低门槛,但如果基础设施封闭,结果可能反而是强者更强。

2 个赞