DeepSeek研究员用Agent写出46页综述:自动研究智能体如何从L1走向L5

一篇99%由Agent完成的综述,系统梳理自动研究智能体L1-L5分级与关键瓶颈。

原文标题:耗时 6 天、百万 Token 消耗,聊聊这篇 AI 主导的领域综述

原文作者:数据派THU

冷月清谈:

DeepSeek研究员陈德里在个人博客发布一篇关于自动研究智能体的综述论文,并称其中约99%由Agent完成。该论文使用其自建的DeliAutoResearch技能,结合DeepSeek-V4-Pro写作与GPT-Image2绘图,历经6天、约108轮Agent调用、64.8万Token消耗,形成46页内容和103篇已验证参考文献。

论文核心是提出自动研究智能体L1-L5自主度分级体系,借鉴自动驾驶分级思路:从L1代码补全、L2工具辅助任务执行、L3多步骤自主执行,到L4受限领域全自主研究;L5则代表能自主选题、长期积累知识并跨领域研究的理想状态,目前尚未实现。

文章还梳理了四类主流Agent架构:单智能体循环、多智能体协作、分层调度、工具增强执行,并指出实际系统往往采用混合架构。论文认为,当前代码智能体成熟度最高,科学智能体已开始产出可验证发现,但迈向L5仍面临持续知识积累、可靠自我评估、上下文限制、可复现性、安全伦理和成本等难题。

怜星夜思:

1、如果AI已经能用6天写出一篇46页综述,人类研究者的核心价值会转移到哪里?
2、L5级自主研究智能体真的可能出现吗?还是更像一个科幻目标?
3、文章说瓶颈不只是模型能力,而是持续知识积累和可靠自我评估,你认同吗?
4、AI生成论文和综述越来越多,会不会让学术文献进一步膨胀,甚至增加阅读负担?

原文内容

图片
本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处
本文约1500字,建议阅读5分钟
本文介绍智能体 L1-L5 分级,梳理架构并剖析行业现存难题。


DeepSeek研究员陈德里,在个人博客更新一篇研究综述论文。


1%是我写的,99%是Agent写的。



用的是他自己的技能DeliAutoResearch,DeepSeek-V4-Pro研究和写作,GPT-Image2画图。


论文共迭代6次(V1:4 次,V2:1 次,V3:1 次),总耗时6天,进行了约108轮Agent调用,消耗64.8万token,写了2234行LaTeX代码。


103个参考文献,全部已验证。论文现为46页,538KB,含7个图表+4个表格。



论文讲的是自动研究智能体L1–L5自主度分类体系的事:


通过分析四大架构模式,给出了可扩展性、成本、可靠性等维度对比。


并基于六维特征矩阵分析了17个主流系统。


还提出了六大开放问题与对应研究方向。




陈德里认为,Code Agent导致计算机科学论文数量疯狂膨胀,同样的工作以前至少需要一个月才能完成。


但现在,他的碳基大脑处理这个问题的“总CPU时间”不到2小时。



他也写了一句免责声明:观点仅为个人所有,不代表任何组织。



DeepSeek研究员与V4 Pro合写的论文


基础模型推动AI工具从研究辅助转向自主研究,但领域缺乏统一框架、术语混乱、评估标准不一。


陈德里和它的AI合著者们提出了一个L1-L5的自主分级体系。


类比自动驾驶的SAE级别,把混乱的AI Agent领域理出了清晰的谱系。


  • L1是最基础的自动补全,也就是最早的GitHub Copilot,预测你下一行代码。

  • L2是任务执行,代表是ChatGPT/Claude聊天机器人加上各种工具,能分解任务,但每一步都得人类批准。

  • L3是多步骤执行,目前最主流的Claude Code、Cursor Agent这种,能自主执行10到100步,只在关键点请求人类审核

  • L4是受限领域内全自主执行,人类仅提供研究目标、评估最终成果,智能体可完成多步实验、代码、论文撰写,但无法自主选择研究问题。

  • L5级是完全自定研究议程,智能体可自主选题、分配资源、长期积累知识、跨领域持续研究,是当前未实现的理想状态,核心瓶颈为持续知识积累、可靠自我评估、架构规模化。


目前行业前沿初步达到L4,L5还只是个设想。


论文认为真正的瓶颈不是模型能力,而是「持续知识积累」和「可靠自我评估」。


除了按自主性级别,论文中又按智能体架构总结了4种主流模式。


  • 单智能体循环


早期研究ReAct、Reflexion、LATS、思维树等为代表。单模型迭代推理-行动-观察,简单高效,但复杂任务能力有限。


  • 多智能体协作


早期智能体框架CAMEL、AutoGen、MetaGPT等为代表,特点是分工协作、多视角纠错,成本较高,沟通易混乱。


  • 分层调度


Claude Code和Devin等为代表,分层规划、任务分解,适合长时程复杂研究。


  • 工具增强执行


SWE-Agent等为代表,核心工具有代码执行环境、网页浏览、API / 数据库、多模态工具,Agent-Computer Interface(ACI) 的设计直接影响性能。


论文四种模式不是谁优谁劣,而是针对特定的任务要选择合适的工具。


如简单短任务选单智能体循环(低成本、易实现);需要多视角纠错、复杂分工选多智能体协作;长时程、高复杂度研究选分层调度(强规划、易监管);需要对接外部工具、环境交互选工具增强执行(能力边界由工具决定)。


但实际应用中,其实多采用混合架构,结合多种模式优势。



有了研究框架,再横向对比当前常见的17个自主研究智能体,揭示领域已从早期通用脆弱原型,演进为L4级受限域专用系统。代码智能体成熟度最高,科学智能体开始产出可验证新发现。


而迈向L5完全自主的核心瓶颈在于持续知识积累、可靠自我评估、架构规模化。



最后,论文中还提出了,六大开放问题:


  • 认知循环陷阱:智能体陷入重复无效策略,无自我终止能力。

  • 上下文限制:固定窗口(4K-1M token)无法支撑长时程研究。

  • 创新性评估:无自动化方法衡量研究原创性与价值。

  • 可复现性:模型随机性、提示敏感性导致结果无法复现。

  • 安全伦理:双用途风险、自主提升风险、学术诚信风险。

  • 成本问题:单任务成本 5-50,高成本加剧科研不平等。


One More THing


陈德里自述,高强度工作导致的精力不足,让他搁置了很多事。


博客、写作,现在是Agent让他有机会把这些重新捡了起来。


除了这篇研究综述,还更新了个人主页。



有了Agent,这些任务完成起来效率超高。


人类的角色,从“执行者”变成了“发起者”。


参考链接:
[1]https://x.com/victor207755822/status/2059269472297623843?s=20


编辑:于腾凯

校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

不完全认同。持续记忆和自评当然重要,但我觉得环境交互也同样关键。比如科研不只是读论文,还包括跑实验、拿数据、复现实验条件。如果工具链和数据环境不可靠,Agent再会反思也没用。

1 个赞

关于“L5是不是科幻”这个问题,我偏谨慎乐观。单次任务上,Agent已经很强;但L5要求长期知识积累、自主选题、自我评估,这些不是把上下文窗口加大就能解决的。它更像是系统工程,不只是模型参数问题。

1 个赞

有点像摄影出现后,画家没消失,而是画画的意义变了。AI写综述之后,人类研究者可能少做“搬砖式整理”,更多做问题定义、实验设计、结果解释和伦理把关。说白了,AI负责跑腿,人类负责别让它跑偏。

1 个赞

我认同。很多Agent失败不是因为不会生成答案,而是没有稳定记忆,也不知道自己错在哪里。它可能这轮发现了一个问题,下轮又忘了;或者明明实验失败,还能写出一段看起来很合理的解释。

2 个赞

回答“人类研究者价值去哪了”这个问题:我感觉会从体力活转到品味活。查文献、整理表格、写LaTeX这些AI很擅长,但什么问题值得研究、哪些结论是硬凑的、哪些引用有坑,这些还得靠人类的学术直觉。

2 个赞

“L5会不会出现”——会,但可能不是大家想象中一个机器人科学家坐在那里顿悟。更可能是很多工具、数据库、实验平台、审稿系统串起来,形成一个半自动科研流水线。到时候你说它是不是L5,可能还得吵一架。

2 个赞