哈佛开源 AutoScientists:可长期自主协作的科研智能体框架

哈佛开源 AutoScientists,让 AI 科研团队自主闭环做实验。

原文标题:AutoScientists开源登场:哈佛带来能进行长期自主闭环科研的自组织智能体

原文作者:数据派THU

冷月清谈:

哈佛大学等团队在 arXiv 发布 AutoScientists,一个面向科学发现的自组织多智能体框架,目标是让 AI 团队在没有中心协调器的情况下完成假说生成、实验规划、闭环验证和论文撰写等流程。系统通过共享状态记录提案、实验日志、失败路径、当前最优解和讨论内容,使不同 agent 能在长期任务中协作、复盘并调整方向。论文展示了其在 BioML-Bench、GPT nanochat 训练优化、ACE2–Spike 结合和 ProteinGym 等任务中的表现:在生物医学机器学习基准上平均排行百分位达到 74.4%,在药物发现任务上提升明显;在训练优化任务中,用更少实验达到相近效果;在蛋白监督替换实验中将平均 Spearman ρ 从 0.657 提升至 0.700。项目已开源,强调学术用途和长期实验协作能力。

怜星夜思:

1、如果 AI 已经能提出假说、做实验、写论文,人类科学家的核心价值会转移到哪里?
2、AutoScientists 这种自组织多智能体,比一个很强的单一 agent 真有必要吗?
3、这类 AI 科研系统的结果应该如何验证,才能避免“看起来很强但不可复现”?
4、如果未来实验室接入这类长期运行的科研 agent,科研流程和团队分工会发生什么变化?

原文内容

图片
来源:ScienceAI
本文约1500字,建议阅读5分钟
一支没有中心协调器,只有自我组织的AI研究小队。


在科技发展的漫长历史中,「科学家」一直被视为人类智慧最坚固的堡垒。提出假说、设计实验、分析数据、撰写论文——这一连串高度依赖直觉、逻辑与创造力的复杂心智活动,曾被认为是硅基智能在短时间内绝无法染指的角色。

而在 2026 年 5 月 27 日,哈佛大学等在 arxiv 上发表了论文「AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation」,推出了专为科学发现量身定制的自主智能体框架 AutoScientists。这是一个能够真正实现「假说生成 - 实验规划 - 闭环验证 - 论文撰写」全流程、端到端自主运行的科研系统

论文链接:https://arxiv.org/abs/2605.28655

去中心化

AutoScientists 本质上是一个自组织的 agent 团队,得益于其底层严密的多智能体(Multi-Agent)协同与复杂的认知闭环设计,该框架可在共享状态上行动,记录提案、实验、结果、失败以及当前的最优解。

图 1: 用于长期实验的自组织 agent 团队。

一旦某条方向停滞,agent 会重新组织,转向别的方向。共享状态里记录着当前最优、实验日志、讨论论坛、队列和 dead-end registry,团队之间还能共享成功和失败,避免重复探索。

基准测试

根据论文与官方在平台上发布的基准测试结果,AutoScientists 在化学、材料科学、生物医学以及复杂系统优化等多个学科的压力测试中,交出了一份令人惊叹的答卷。

团队首先把 AutoScientists 放到 BioML-Bench 上测试。这个基准覆盖 24 个端到端的生物医学机器学习任务,横跨生物医学影像、蛋白工程、单细胞组学和药物发现。结果是,AutoScientists 的平均排行百分位达到 74.4%,对比自体研究高 8.33 个百分点;其中提升最大的部分出现在药物发现任务上。

图 2:BioML-Bench 的测试结果。

在与 GPT nanochat 训练优化上的自动研究相比,AutoScientists 用更少的实验达到了相同的验证每字节比特数。

更难的是,AutoScientists 从一个已经优化过的当前解开始迭代。对于这个解,单 agent 自研究循环在 100 次实验中饱和,没有提出任何改进;而 AutoScientists 在 93 次实验中完成了了 7 次迭代,并仍有继续完善的空间。

图 3:GPT 训练优化。

针对现有方法的改进

最后,团队开始思考,AutoScientists 是否能改进一种现有的强大科学方法,而不是从零开始?

在开发过程中,AutoScientists 在单一实验 ACE2–Spike 结合上进行了优化。从 Kermut 开始,它发现了一种 ACE2-Spike 结合方法,将 Spearman ρ 从 0.747 提高到 0.840。所发现的方法不仅仅是超参数调整。

开发完成后,团队冻结了配方,并将其不加修改地应用于所有 217 个 ProteinGym 监督替换实验。平均 Spearman ρ 从 0.657 提高到 0.700。相对改进提升了 6.5%,并在监督替换基准上达到了新的最先进水平。

图 4:AutoScientists 在蛋白任务上的方法改进。

可长期协作的自主智能体

这是 AutoScientists 使长期实验成为集体的探索过程。研究者完全可以可以设置一个长期运行的实验,离开,然后兴奋地回来查看 agent 尝试了什么,什么失败了,什么改进了,以及它们一夜之间学到了什么。这感觉不像是在运行一个脚本,而更像是去探望一个研究团队。

虽然它的设计并不比单智能体基线更高效地调用 LLM,但它更善于让 agent 团队在设计空间内探索和协作,从而在固定的实验计算预算下改进实验搜索。 在固定的实验计算预算下,这种方法比现有方法表现更好。

AutoScientists 的网站和代码已经公开,开发团队也将其描述为一个开源、学术性质的项目。

相关链接:

https://x.com/AdaFang_/status/2060075719883891162

https://autoscientists.openscientist.ai/

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU



针对“AI 会不会替代科学家”:短期看不像替代,更像把研究生最痛苦的重复试错部分外包了。人类科学家可能从亲自拧螺丝,变成设计实验室规则、审核结果、判断异常发现的人。说白了,老板味更浓了。

2 个赞

关于“实验室分工变化”:我猜会出现一种新角色,类似 AI research operator,负责配置 agent、维护实验环境、检查日志、做结果审计。传统 PI、博士后、学生的边界也会变,很多人会从执行者变成监督者和评估者。

2 个赞

回答这个问题,普通网友版:别只看它说“我发现了新方法”,要看别人能不能照着做出来。AI 科研系统最怕的是 PPT 里诺奖,GitHub 上跑不通。

2 个赞

我感觉实验室会更像开游戏挂机。晚上把任务丢给 AutoScientists,第二天早上看它刷出了什么装备:哪些路线爆了,哪些路线寄了,哪个指标涨了。当然,前提是别挂机一晚上烧掉整个计算预算。

2 个赞

我回答“人类科学家的核心价值会转移到哪里”这个问题:我觉得会更偏向问题定义和价值判断。AI 可以枚举假说、跑实验,但“哪个问题值得研究”“结果是否有现实意义”“伦理边界在哪里”,这些目前还是人类更擅长。科研不是只追指标,很多时候是选择方向。

3 个赞

关于“多智能体是否必要”,我想泼点冷水:多智能体也可能只是把一个模型的幻觉复制成群聊。真正关键不在 agent 数量,而在共享状态、实验验证、失败登记这些机制做得是否扎实。没有验证闭环,再多 agent 也只是大型聊天室。

2 个赞