AI 科学家论文通过 ICLR 研讨会评审:AI 助力科研新突破

Sakana AI 的 AI Scientist-v2 成功通过 ICLR 研讨会评审,标志着 AI 在科学研究领域取得重要进展。但团队强调需规范 AI 生成论文的伦理与透明度。

原文标题:AI写的论文能过审?双盲评审6.25分,达到ICLR研讨会水平

原文作者:机器之心

冷月清谈:

Sakana AI 的 AI Scientist-v2 系统成功通过 ICLR 研讨会的同行评审,这是 AI 科学家撰写的论文首次通过同行评审。研究团队与 ICLR 研讨会合作,提交了三篇完全由 AI 生成的论文进行双盲评审。其中一篇论文获得了 6.25 的平均分,超过了接受阈值,但团队在正式发表前撤回了论文。Sakana 团队还按照 ICLR 主会议的标准对这三篇论文进行了评审,但均未通过审核。尽管如此,该团队认为 AI 科学家展示了巨大的潜力,并期望 AI 能够为科学研究做出更大的贡献。文章还强调了在学术界建立人工智能生成科学的规范体系的重要性,以确保透明度和避免不必要的偏见。

怜星夜思:

1、AI 科学家生成的论文通过研讨会评审,但未达到主会议标准,这说明了什么?AI 在科研领域的发展前景如何?
2、文章提到 AI 科学家会出现引用错误,这暴露了当前 AI 哪些方面的不足?我们该如何避免类似问题?
3、AI 生成论文的伦理问题,例如署名权、版权等,应该如何界定?

原文内容

机器之心报道

编辑:2049、Panda

去年 8 月,Transformer 论文作者之一 Llion Jones 与前谷歌研究者 David Ha 共同创立的人工智能公司 Sakana AI 推出了首个全自动科学发现的 AI 系统:AI Scientist,即「」。到 12 月份,他们又拿出了另一项震撼性的重磅研究成果:。这两项成果都吸引了无数眼球。

而就在昨天,Sakana AI 又宣布:AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评审的科研论文!


这个研究会的名字很长:「I Can't Believe It's Not Better: Challenges in Applied Deep Learning」,即「我简直不敢相信它没有变得更好:应用深度学习的挑战」。


研讨会地址:https://sites.google.com/view/icbinb-2025

之所以提交给这个 ICLR 研讨会,是因为其涵盖了广泛的研究范围,能够挑战研究者和 AI 系统处理深度学习实际局限性的各种课题。ICLR 与 NeurIPS 和 ICML 并列为机器学习和人工智能领域的三大顶级会议。
 
该项目由不列颠哥伦比亚大学和牛津大学的研究团队合作完成,AI Scientist-v2 系统的完整细节将在近期发布。David Ha 表示 AI Scientist-v2 也将开源发布。


评估流程

研究团队与 ICLR 研讨会组织者合作,提交了 3 篇完全由 AI 生成的论文进行同行评审,评审人未被明确告知论文来源(双盲评审)。
 
这些论文由 AI Scientist-v2 完全端到端生成,无人类修改。AI 自主提出研究假设、设计实验、编写代码、运行实验、分析数据、创建可视化图表,并撰写了包括标题到参考文献的全部内容。
 
研究团队仅提供了广泛研究主题,并从 AI 生成的多篇论文中选择了 3 篇提交。在提交的论文中,一篇获得平均 6.25 分(具体为:6、7、6、6,其中 6 分为略高于接受阈值,7 分为优秀),在所有提交论文中排名约 45%,超过了平均接受阈值,表现优于许多人类撰写的论文。

 
根据预先确定的实验协议,即使 AI 论文被接受,团队也会在正式发表前撤回,因为学术界尚未就 AI 生成手稿的发表达成共识。据团队所知,这是首次完全由 AI 生成的论文达到足以通过标准科学同行评审流程的水平。

这篇论文报告了人工智能科学家在尝试创新训练神经网络的新型正则化方法时遇到的负面结果,这种方法可以提高神经网络的组成泛化能力。

透明度和道德行为守则的重要性

科学界研究人工智能生成内容质量的重要性不言而喻,最有效方法之一是将部分样本提交至与人类研究相同的严格同行评审流程(在获得相关管理方许可的前提下)。

需说明,这些人工智能生成的论文不会在 OpenReview 公共平台公开。根据各方共同协议,此类论文将在同行评审结束后被撤回并自动不予录用。

学术界需建立人工智能生成科学的规范体系,明确何时、如何声明论文的人工智能生成属性,以及研究过程中的适当时机。总体原则是提供最大透明度,尽管这涉及一个复杂问题:是否应先基于科学价值本身进行评判,以避免不必要偏见。

挑战和局限性

需要指出,虽然这些 AI 科学家的成果成功完成了同行评审,但却是研讨会,而不是主会议。另需强调:该研讨会只接收了 3 篇论文中的 1 篇。

通常而言,相比于提交给主会议的论文,提交给研讨会的论文提出的初步发现不够精细。事实上,许多会议论文都是从研讨会论文开始的。

下面也会提到这一点,Sakana 内部按照 ICLR 主会议的标准对这三篇论文进行了评审。结果它们都没有通过审核。

顶级机器学习会议(如 ICLR、ICML 和 NeurIPS)主会议的接受率通常在 20-30% 左右,而 Sakana 提交的研讨会(在顶级机器学习会议上举办)的接受率在 60-70% 左右。

该团队还指出,AI Scientist 是一个基于前沿 LLM 的系统,因此,AI Scientist 的表现与这些 LLM 的表现直接相关。如果前沿基础模型不断改进(许多科学家也如此预期),那么 AI Scientist 也将继续进步。

分析 AI 生成的论文

除了让同行评审 AI 生成的论文,Sakana 自己的团队也对这三篇 AI 生成的论文进行了分析和评价。

该团队将这三篇论文看作是提交给 ICLR 主会议的稿件(其接受标准更高),然后他们为每篇论文都生成了完整的评审意见。

除了评价,该团队还为每篇论文增加了内联评论。

该团队将自己的身份设定为 ICLR 会议审阅者,向论文作者(AI 科学家)提供了他们在论文中发现的问题以及修改建议 —— 作者可以根据评论和问题改进论文。不同于研讨会审阅流程,这种来回交流是顶级会议或期刊的典型同行评审过程的一部分 —— 审阅者与作者一起改进研究成果。

AI 科学家偶尔会犯令人尴尬的引用错误。例如,Sakana 发现它错误地将基于 LSTM 的神经网络的作者标记给了 Goodfellow (2016),但正确的作者其实是  Hochreiter and Schmidhuber (1997)。

除了评论和意见外,他们还在初始审查阶段为每篇论文提供了初步评估分数 —— 该分数是根据 NeurIPS 和 ICLR 等顶级机器学习会议的指导方针给出的。

最终,他们得出结论是:这 3 篇论文都没有通过 Sakana 的内部标准 —— 其当前形式达不到被 ICLR 主会议接受的质量。「然而,我们认为我们提交给那个研讨会的论文包含虽然初步但也很有趣的原创想法,可以进一步发展,因此我们相信它们可能有资格被该 ICLR 研讨会接收。」

如果你有兴趣详细读一读这三篇论文与 Sakana 团队的评审意见,可以访问:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment

AI 科学家的未来

Sakana 团队表示:「我们相信,下一代 AI 科学家将开启科学的新时代。」

现在,AI 已经可以生成一篇完整的科学论文,并通过顶级机器学习研讨会的同行评审,这暗含着 AI 科学家的巨大潜力。

「我们预计 AI 将继续提升,可能呈指数级提升。在未来的某个时候,AI 或许能够生成与人类水平相当甚至超越人类水平的论文,包括最高水平的学术论文。」他们预测,AI 科学家和类似的系统不仅将能写出可被顶级机器学习会议接收的论文,也能写出可在顶级科学期刊上发表的论文。

该团队表示:「最终,我们认为最重要的不是如何评判 AI 科学与人类科学,而是它的发现是否有助于人类繁荣,例如治愈疾病或扩展我们对宇宙规律的认识。我们期待着帮助开启 AI 科学为人类进步做出贡献的时代。」

参考链接
https://x.com/hardmaru/status/1899665717215326283
https://sakana.ai/ai-scientist-first-publication/

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


引用错误其实是很常见的,即使是人类学者也会犯。AI 犯这种错误,我觉得是因为它还缺乏一种学术规范的意识。我们可以通过更严格的训练,让 AI 理解学术引用的重要性和规范,增加它在引用环节的错误检测机制。

这确实是个很复杂的问题。如果论文完全由 AI 生成,署名权应该归谁?是 AI 的开发者,还是使用 AI 的研究者?我觉得应该具体情况具体分析。如果人类研究者只是提供了一些初始数据或方向,那么 AI 开发者应该享有署名权;如果人类研究者对论文进行了大量的修改和完善,那么人类研究者也应该有署名权。至于版权问题,我觉得可以参考软件著作权的模式,明确 AI 生成内容的使用权和所有权。

这个问题让我想到了“忒修斯之船”悖论。如果一艘船的每个部件都被替换了,那么它还是原来的那艘船吗?AI 生成论文也是一样,如果一篇文章完全由 AI 生成,那么它还是“学术成果”吗?我觉得我们需要重新思考“学术成果”的定义,也许未来会出现一种新的学术评价体系,专门针对 AI 生成的内容。

这个问题很有意思。AI 能通过研讨会评审,说明它在特定领域已经具备一定的科研能力,可以产出符合规范的内容。但达不到主会议标准,也说明目前AI的创新能力、深度思考等方面还存在局限性。未来,随着算法和数据的不断进步,AI 在科研领域肯定会发挥更大的作用,但完全取代人类的可能性还比较小,更可能是一种辅助和合作关系。

这让我想起AlphaGo战胜李世石。当时很多人觉得AI要统治世界了,但现在来看,AI 的发展并没有那么迅速。AI 在科研领域的应用也是一样,短期内可能更多的是工具性的,帮助我们提高效率。但长期来看,谁知道呢?也许未来真的会出现一个 AI 科学家,发现新的物理定律,或者发明一种能治愈癌症的新药。

我觉得更重要的是透明度。应该明确标注论文中哪些部分是由 AI 生成的,哪些部分是人类贡献的。这样可以避免学术不端行为,也能让读者更清楚地了解论文的价值。至于署名权,可以考虑采用“AI 辅助”之类的标注方式,强调 AI 在研究中的作用,但避免过度夸大。

这说明现在的 AI 在知识的理解和运用上还存在偏差,它能检索到相关信息,但无法像人类一样真正理解信息之间的关联。避免这种问题,需要提升 AI 的语义理解能力,让它不仅能记住知识,还能理解知识背后的逻辑和上下文。

我觉得这个问题挺有趣的。AI 引用错误,是不是可以考虑让它自己来做查重?相当于让 AI 互相review,看看谁引用的不对。当然,这只是个玩笑,不过也说明 AI 在自我纠错方面还有很大的提升空间。

我觉得这就像一个学生,考试及格了,但离优秀还差很远。AI 现在能做的,更多是模仿和重复,缺乏真正的突破性思维。不过,科研领域分工很细,AI 在数据分析、文献检索等方面已经能提供很大帮助。未来,AI 也许能成为科研团队中不可或缺的助手,但核心的创新工作,还得靠人类。