AI科研狂飙:228小时生成100篇论文,全自动研究系统FARS引爆讨论

全自动AI研究系统FARS在228小时内生成100篇论文,平均每篇成本约1000美元,初步展现科研工业化雏形。

原文标题:228小时狂飙100篇论文、烧光114亿Token:FARS杀疯了

原文作者:机器之心

冷月清谈:

Analemma打造的全自动研究系统FARS,在228小时内自主完成从假设提出、实验到论文撰写的全过程,共生成100篇短论文。系统由Ideation、Planning、Experiment和Writing四个模块组成,通过并行推进研究任务,实现了科研流程的高度模块化。实验结果表明,FARS在吞吐量上具有显著优势,但仍处于“算力换智能”阶段,Token消耗较高。论文质量方面,FARS产出的论文平均分高于人类投稿的整体水平,但与平均中稿线仍有差距。案例分析显示,FARS展现了快速跟进前沿研究和诚实报告负面结果的能力。FARS的出现引发了关于科研工业化和人类研究者不可替代性的讨论。

怜星夜思:

1、FARS系统在短时间内产出大量论文,你认为这种科研“工业化”模式会对未来的学术界带来哪些影响?是利大于弊,还是弊大于利?
2、文章提到FARS系统在某些方面已经超越了人类投稿的平均水平,但在复杂假设空间中的研究取舍和机制洞察上仍有不足。你认为在AI科研流水线中,人类研究者最核心的价值体现在哪里?
3、FARS系统目前仍处于“算力换智能”阶段,Token消耗较高。你认为未来AI科研系统在哪些方面有进一步的优化空间?

原文内容

图片
编辑|Sia

这个春节,AI 圈最硬核的一场「真人秀」,悄然完成了阶段性收官。


主角不是动漫人物,也不是舞枪弄棒的机器人,而是一位 7×24 小时从不疲倦的 AI 科学家 ( Fully Automated Research System )。


这套由 Analemma日行迹)打造的全自动研究系统,在长达 228 小时 28  33 秒的连续公开运行中,自己提假设、做实验、写论文,共生成 244 个研究假设,「肝」出 100 篇短论文( short paper )。


算下来,在这座流水线式的「科研工厂」中,每隔约 小时就有一篇论文产出。


让 AI 自己写 100 篇论文目标达成,花了 228 个小时。目前,计划持续一个月的直播仍在进行中。直播地址:https://analemma.ai/fars

 

这种跳出传统科研范式的工业级吞吐量,很快让围观网友坐不住了。



首批深度「验货」的专业网友给出了一个颇为一致的判断:结果超过预期、相当出色。


如果把它当作人类顶会论文,还不够惊艳;但如果考虑到这是一个全自动系统的阶段性产出,其完成度已经明显超出很多人的事前预期。


「考虑到这只是一个 AI 的自主起步,能 7×24 小时稳定产出到这个质量,还要啥自行车?」

 


而且,真 work 没有通篇幻觉。



至少在当前阶段,FARS 已经完成了一次关键跨越。它首次证明,一条无人值守的科研「流水线」不仅能跑,而且能在相对稳定条件下,持续产出具备一定学术竞争力的 short paper 级工作。


「发论文这件事本身的稀缺性」被摧毁了。

  

恐怖的「工业节拍」,算力正在转化为知识

 

FARS 并不是一个单体模型,而是一套多智能体系统,包括四个功能模块:


  • Ideation(构思):负责文献调研与假设生成

  • Planning(规划):负责实验方案设计

  • Experiment(实验):负责代码编写与执行

  • Writing(写作):负责论文撰写


从实时运行界面可以直观看到,FARS 以项目队列的方式并行推进多个研究任务。每个课题依次穿过 Ideation → Planning → Experiment → Writing 四个阶段,流程高度模块化,呈现出明显的「科研装配线」特征。

 

图片

FARS 实时运行界面:从假设生成到论文写作,自动化科研流水线首次以可观测形态完整展开。

 

为了让它心无旁骛的做研究,Analemma(日行迹)还给它搭建了一个 160 张显卡的计算集群,并允许它调用几乎任何开源和闭源大模型,实验条件远超大部分高校实验室。


而这条「流水线」的产能,已经到了让人很难忽视的程度。在约 228 小时(≈9.5 天) 的连续运行周期内:


  • 系统生成 244 个研究假设
  • 完成 100  short paper
  • 累计消耗 114 亿 Token
  • 总成本约 10.4 万美元≈75 万元人民币)


全程无人干预。


进一步归一化后,这套系统的「工业节拍」变得更加直观:平均每隔约 2 小时 17 分就有一篇研究论文完成,平均每篇论文成本大约 1000 美元,花费 1 亿多Token


对比人类科研常见的 3–6 个月 / 篇的周期,这种吞吐差距几乎是数量级级别的,成本也极为低廉。



不过,如果把目光从吞吐转向效率,约 1.14 亿 Token / 篇的消耗,已经明显高于普通写作生成(通常百万级 Token )以及常见复杂 Agent 任务(通常百万、千万级 Token )的开销。


这表明,FARS 仍处于「算力换智能」的阶段,其表现更多来自计算密度,而非算法效率的极限压缩。


综合来看, 一方面,FARS 已经用实测结果证明,端到端自动化科研流水线在吞吐层面是切实可行的。另一方面,其当前的 Token 与成本结构,距离「足够便宜地大规模跑」还有工程空间。

 

质量:它写得快,那写得好吗? 

 

量大,从来不自动等于质优。FARS 写出来的东西,到底处在什么水平?


为此,研究团队使用斯坦福大学开发的 AI 审稿系统 Agentic Reviewer( paperreview.ai ),按照 ICLR 的评审标准,对这 100 篇论文进行了统一打分。


根据开发者公开评估,Agentic Reviewer 在审稿一致性上,已达到人类审稿人的判断水平。


开发者在 ICLR 2025 审稿数据 上做了对比评测,使用的是 Spearman 相关系数。人类 vs 人类:0.41AI vs 人类:0.42。开发者认为 agentic reviewing 正在逼近人类水平。

 

从整体评分结果来看,FARS 产出的 100 篇论文中,平均得分为 5.05(区间 3.0–6.3)。


少量论文处于 3.0–4.5 的低分段,也有极少数突破 6.0 分。

 

FARS 论文分数主要堆在 5 分附近,说明产出质量并不是随机波动,而是已经形成相对稳定的「质量带」。少量样本进入 6 分以上区间,意味着系统偶尔能产出超强作品。

 

这个成绩,与人类战绩相比,又如何呢?


作为参照,ICLR 2026 人类投稿的平均分为 4.21,而最终被接收论文的平均分为 5.39


对照来看,FARS 的平均分 5.05,已经明显高于人类投稿的整体平均水平,但距离「平均中稿线」仍存在差距。


可谓比下有余,比上未满。

 

FARS 生成的学术论文平均分超过人类投稿者的平均水平,但与平均中稿分数仍有差距。

 

需要再次强调的是,本次自动化生产以短论文为主,并未以当前学术会议的评审标准作为优化目标。因此,无论是斯坦福大学 Agentic Reviewer 还是其他基于现有特定审稿标准的 AI 审稿结果,都只能作为一种参照,而非盖棺定论。


据团队透露,除 AI 审稿外,目前也在同步开展人工质量评审,并将在评估完成后形成综合质量报告。


即便在这一审慎前提下,将前后两部分数据合并观察,整体信号仍然较为清晰:在接近人类评审尺度的评价体系中,FARS 已然一台稳定的中分段输出机器

 

论文深读:

从「极速跟进」到「直面失败」

 

如果说前面的数据与评分只能给出一条宏观刻度,那么具体论文样本,才真正暴露出 FARS 的研究成色。


已有网友拆解其中一篇 LLM-as-a-Judge 工作后评价,这类论文在摘要组织与问题切入上已经相当工整。


考虑这是 AI 自动产出,完成度已经「超出预期」。框架图、结果图、分析基本都齐全,「像那么回事」


也有人觉得编号为 FA0008 的项目「 make sense 


接下来,我们选择一成一败两篇代表作,一探究竟。


先看「做成」的一篇 FA0042。它瞄准的是文本 embedding 里一个老矛盾: 


双向注意力质量高,但会破坏 KV-cache;因果注意力能流式推理,但表示能力吃亏。



FA0042 的解法非常工程导向——训练阶段用双向拿质量,推理阶段用因果保效率。具体路径是先训一个双向 teacher,再把能力蒸馏进 causal student。为了避免直接切双向带来的分布漂移,论文还引入了刚发布不久的 GG-SM 做渐进过渡。

 


结果也确实「能打」, 这条工程折中路线被验证是 work 的。


 MTEB-slice  主要结果


流式推理延迟对比


LoCoV1 长文档检索结果。student 模型以 0.284 的 NDCG@10 大幅领先所有 baseline(包括 teacher 的 0.212 ),出人意料。

  

当然,short paper 气质也很足:细粒度成对任务提升有限,长文档检索反超 teacher 的机制还没完全讲透。


但更值得注意的是,蚂蚁集团的 GG-SM 发布 3 天就被接入实验流程,这种紧跟前沿的速度,本身就是 FARS 系统敏捷性的一个信号。


再看一篇「没做成」的 FA0121


它的文献调研很给力,盯上了 DeepSeek 新提出的 Engram 稀疏架构,并抓到了一个很研究味的问题——


hot-to-cold advantage flip ,  Engram 中的门控( gate )在训练过程中难以准确根据 n-gram embedding 的实际效用进行调整,存在高频( hot )和低频( cold )偏置。



为了打破这种「马太效应」,FARS 尝试了一个直觉上非常硬核的方案:试图通过「反事实门控监督( CGS )」修复 DeepSeek Engram 架构中的「冷热偏置」问题


在特定训练步骤中分别强制 gate 全开和全关,计算两种情况下的 loss 差值来估计当前 n-gram embedding 的实际效用,以此作为辅助监督信号来训练 gate

 

FA0121 方法示意图


主实验结果

 

思路很直觉。但结果很诚实——基本没救回来。


CGS 带来的那点提升,甚至不如让模型多训练几步来得实在。这说明,要解决 AI 的偏见,光靠「教练现场打分」是不够的,得从更深层的制度(架构)上下功夫。


论文给出的复盘也很到位:Gate  n-gram embedding 的训练是一个相互耦合的系统动力学问题,不是简单加监督就能补的。


这篇工作的价值正在于:它没有试图掩盖负面结果,没有为了追求正面结果而篡改数据或强行解释,而是通过一套严密的诊断性实验(Diagnostic Experiments ),反思 CGS 的失败。


这种「算法诚实」是当前学术界稀缺的品质。

 


舆论场:

从「又一个 Demo」到「科研流水线雏形」

 

随着 FARS 「直播真人秀」数据披露,社区讨论也迅速升温,高频指向一个关键词——生产线。


不少围观者很快抓住了真正的冲击点:这次引发不安的,并不是某一篇论文写得多惊艳,而是系统所展现出的连续科研运转能力。


当一个系统能够稳定提出假设、自动完成实验、并持续吐出成稿时,评价坐标其实已经悄然移动。问题不再是「 AI 会不会写论文」,而是更具结构性的那一句—— AI 是否开始具备科研工业产能的雏形。


这种叙事重心的变化,本身就意味着社区对 AI 科研系统的预期正在抬升。一些技术讨论甚至认为,LLM  AI 方向论文写作上的能力已「基本够用」,剩余差距更多体现在工程细节层面。


「 个月内就可能出现非常成熟可用的自动 paper pipeline。」



换言之,大多数人几乎已经默认:科研流水线时代,迟早会来。真正悬而未决的问题反而是,当科研开始规模化自动生产,人类的不可替代性究竟还剩下什么?


对此,也有人给出答案:决定上限的,或许仍是研究者个人品味。



当然,社区并非只有单一声音。


有人认为,与其关注单纯 scale 出大量「普通 conference paper 」,不如将算力与模型能力投入到真正困难的开放问题上,这或许才是更具长期价值的方向。


 

无限心智的起点

 

FARS 的这 100 篇论文,并不是终点,更像是一枚被钉下的坐标点。


它证明了一件很重要的事:端到端自动科研流水线,已经能够在相对稳定的运行条件下,持续产出具备一定学术竞争力的 short paper,并且开始展现出基础的自我纠错与负结果报告能力。


这意味着,自动化科研第一次以一种可连续运转的系统形态,正式进入现实。


但如果把放大镜再压近一层,当前阶段的天花板同样清晰可见。


FARS 很会把一条合理路径走通,却还不够擅长在复杂假设空间中做出真正具有突破性的研究取舍;能完成结构完整的论证,但在思想压强和机制洞察上仍有提升空间;而在算力利用率上,系统也还停留在明显的「算力换智能」阶段。


此刻的 FARS,更像一位极度勤奋、训练有素且从不疲倦的初级研究员,距离那种能够稳定打出顶会级工作的成熟研究者,仍有一段需要跨越的进化距离。


不过,真正重要的或许并不是它此刻已经多强,而是那条「无限心智生产线」,已经可以稳定地跑起来。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

同意楼上的观点!学术界的评审标准有时候过于僵化和保守,容易扼杀一些有潜力但不够『成熟』的研究。我补充一点,AI论文评估体系还应该加入『实用性』的考量。也就是说,研究成果是否能够解决实际问题,或者为产业界带来价值。如果一篇论文只是在象牙塔里自娱自乐,那它的价值就值得商榷。

格局!AI可以帮助我们解决具体的问题,但它无法看到问题的全貌。人类研究者应该具备全局视野,能够从战略高度来思考问题,制定长期的研究计划。另外,人类研究者还应该能够将研究成果与社会需求相结合,为社会发展做出贡献。

楼上说的有道理!传统的科研模式确实该反思了。不过我觉得科研的核心还是创新,AI只是一个工具。未来科研人员的核心竞争力应该是对领域内的深刻理解和洞察力,能够发现并解决真正重要的科学问题。AI可以帮助我们更快地验证想法,但是创造性的思维和判断力还是需要人类来完成。

抖个机灵,直接让AI自己优化成本!狗头.jpg
认真说,感觉token消耗大,是不是因为AI在不停地试错?如果能让AI更好地评估风险,减少无效尝试,是不是就能省下不少token?

与其说是威胁,不如说是科研门槛的提高。以后科研人员不仅要有专业知识,还得懂AI、会用AI,不然效率肯定拼不过。但这也能倒逼大家提升能力,未尝不是一件好事。

我觉得算力成本的问题可以从两个方面来看。一方面,正如楼上所说,技术进步会降低算力成本。另一方面,我们也可以通过更高效的算法和模型来减少算力消耗。比如,能不能用更小的模型完成同样的任务?能不能用更少的Token训练出更好的结果?

总之,解决算力成本问题需要综合考虑技术和经济因素,但我相信最终我们能够找到可行的方法。

我觉得AI最有可能取代的是那些重复性、低创造性的工作,比如文献检索、数据整理、实验记录等等。而那些需要创新性思维、批判性思考、以及与人沟通协作的工作,比如选题、提出假设、解释实验结果、以及团队管理等等,AI短期内很难取代。简单来说,AI是工具,人才是最终的决策者。

我更看好AI在实验设计方面的应用。AI可以根据已有的知识,自动设计实验方案,并预测实验结果。这样可以大大缩短实验周期,提高科研效率。

如果AI算力成本足够低,那人人都能搞科研了。想象一下,以后中小学生都可以用AI来做研究项目,发表论文,简直是科研平民化的福音!当然,也需要警惕学术造假和抄袭的问题,毕竟AI也可能会被滥用。

鼓励科研人员坦诚报告负面结果确实很重要,但实际操作起来可能会遇到很多挑战。例如,科研经费通常与发表成果挂钩,如果研究结果是负面的,可能会影响后续的经费申请。此外,学术晋升也往往看重发表论文的数量和质量,负面结果可能被认为是不够“有价值”的。要解决这个问题,需要从根本上改革科研评价体系,更加重视研究过程的严谨性和科学性,而非仅仅关注结果的“成功”与否。

这个问题很有意思!我觉得学术评价标准肯定会变的。以前大家比谁能发文章,以后可能比谁能提出更有价值的问题了。毕竟,AI可以帮你快速验证想法,但提出好问题还是得靠人脑。所以,实验设计和数据质量会越来越重要,因为那是我们区分人类研究和AI批量生产的关键。

我持偏保守的观点。学术评价标准的改变不会一蹴而就。数量依然会是很多机构和个人评价的重要指标,尤其是在晋升和考核方面。但是,我同意实验的独创性和数据的可靠性会越来越受到重视。毕竟,如果大家都用AI批量生产论文,那么真正有价值的发现才会显得更加珍贵。

学术评价标准的变革是必然趋势,但不会完全颠覆现有模式。随着AI辅助科研的普及,论文数量可能不再是唯一或最重要的指标。更重要的是,研究的深度、创新性和实际应用价值将成为新的评价维度。同时,对于实验设计和数据质量的要求也会相应提高,以确保研究结果的可靠性和可信度。另外,学术界也需要建立更加完善的同行评议机制,以应对AI生成论文可能带来的挑战。

我觉得吧,降低Token消耗,一方面可以优化模型结构,用更小的模型完成相同的任务;另一方面,可以在数据层面下功夫,用更少、更优质的数据训练模型。至于算力之外的优化方向,我觉得可以考虑引入更多的人类知识和经验,比如让AI系统学习优秀的科研方法论,或者与人类专家进行更紧密的协作。

这意味着FARS很擅长模仿现有论文的格式和结构,但缺乏真正的创新性和深度思考。就像一个很努力的学生,能把课本上的知识都记住,但不会灵活运用。改进的话,我觉得要从以下几个方面入手:

1. 增加知识储备: 让FARS学习更多领域的知识,不仅仅是AI相关的论文,还要学习其他学科的知识,拓宽视野。
2. 提高推理能力: 训练FARS进行更深层次的逻辑推理和因果分析,而不仅仅是简单的模式匹配。
3. 引入反馈机制: 让FARS能够从审稿人的意见中学习,不断改进自己的写作风格和研究方法。