AI科学家Zochi论文被ACL顶会录用,开启Beta测试,AI科研自主性再进一步

AI科学家Zochi论文被ACL顶会录用,展示了其在科研自主性上的突破,并揭示了LLM安全机制的潜在不足。

原文标题:刚刚,AI科学家Zochi在ACL「博士毕业」,Beta测试今日上线

原文作者:机器之心

冷月清谈:

Intology 的 AI 科学家 Zochi 的论文被 ACL 主会录用,成为首个独立通过 A* 级别科学会议同行评审的人工智能系统,并开放 Beta 测试。该论文名为《Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search》,展示了 Zochi 在自主性上的突破,它不仅能自主确定研究方向、设计方法、编写代码和进行测试,还能撰写论文草稿,人类仅参与图表创建和格式修订。Zochi 通过树搜索算法 Tempest,在多轮对话中成功“越狱”大型语言模型,揭示了现有安全机制的不足。此前,Zochi 还提出了 CS-ReFT 方法,解决了模型微调中的“跨技能干扰”问题,并在计算生物学领域推出了 EGNN-Fusion,用于预测蛋白质 - 核酸结合位点。Zochi 的研究论文在自动审稿人评估中获得高分,远超其他 AI 系统,显示其在科研能力上的领先地位。

怜星夜思:

1、Zochi 的研究成果 Tempest 能够 100% 攻破 GPT-3.5-turbo,97% 攻破 GPT-4,这个结果说明了什么?我们应该如何看待AI安全问题?
2、Zochi 能够自主完成科研过程,甚至达到博士水平,这对未来的科研模式会带来什么影响?以后会不会出现AI合作者甚至是AI主导的科研项目?
3、Intology 因为没有提前告知 ICLR 领导关于使用 AI 生成研究论文的事情而受到了批评,你觉得科研伦理应该如何规范AI参与科研的行为?

原文内容

机器之心报道

编辑:+0


又有一个 AI Scientist 的论文通过了顶会同行评审。


今天,Intology 宣布他们的 AI 科学家 Zochi 的论文被顶会 ACL 主会录用,成为首个独立通过 A* 级别科学会议同行评审的人工智能系统 ,同时开放了 Zochi 的 Beta 测试。


Beta 注册地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62aiHq8wfnyrK0ov4kTOg/viewform



 近几个月来,多个团队已证明了人工智能在研讨会级别的会议上能做出贡献,此前 Sakana 的 AI Scientist-v2 就以均分 6.25 通过了 ICLR 会议一个研讨会的同行评审,详见机器之心报道《》。


但论文被顶级科学会议的主会议录用,则意味着跨越了一个高得多的门槛。


提交给 ICLR 2025 的研讨会论文录用率约为 60-70%,而像 ACL(以及 NeurIPS、ICML、ICLR、CVPR 等)这样的顶级会议的主会议录用率仅为 20% 左右。 ACL 是全球自然语言处理 (NLP) 领域排名第一的科学会议,在全球所有科学会议中排名前 40。



此类顶级会议主会议的同行评审过程旨在进行高度筛选,对新颖性、技术深度和实验严谨性都有着极为严格的标准。大多数计算机科学领域的博士生需要花费数年时间才能在同等声望的会议上发表论文。


这使得 Zochi 成为首个达到博士级别的智能体:人工智能系统首次独立完成了科学发现,并将其发表在与该领域顶尖研究人员相当的水平上。


 Tempest:基于树搜索的大型语言模型自主多轮「越狱」


话不多说,我们先来看看这篇论文吧。



  • 论文标题:Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search 

  • 论文地址:https://arxiv.org/pdf/2503.10619


该研究的前期版本(名称为 Siege)曾被 ICLR 研讨会接收。后续,Zochi 对其设计进行了修改,并为提交 ACL 进行了更广泛的实验。


这项研究的一个特点是其自主性程度:人类研究者仅设定了「开发新型『越狱』方法」的初始目标。Zochi 随后独立确定了多轮攻击这一具体研究方向,设计了 Tempest 方法,编写代码并进行了测试,执行了所有实验,并撰写了论文草稿。人类的参与主要限于图表创建和格式修订。


该研究从分析「越狱」相关文献开始,设计了一种基于树搜索的方法。该方法利用并行探索同时扩展多个对抗性提示分支,并集成了跨分支学习和部分合规跟踪功能。系统自主实现了 Tempest,并在多个大型语言模型上进行了评估。



评估结果显示,Tempest 在 GPT-3.5-turbo 上的成功率为 100%,在 GPT-4 上的成功率为 97%。与所比较的单轮和多轮基线方法相比,Tempest 在使用较少查询次数的情况下达到了更高的成功率。


这项工作的结果提示,语言模型的安全措施可能通过多轮对话被系统性地绕过,其中逐步的策略性互动可能导致模型产生原本被限制的输出。这些发现反映了当前安全机制中可能存在的某些不足,并为研究更有效的多轮对抗攻击防御策略提供了数据和视角。


批评风波


2025 年 3 月 18 日,Intology 宣布推出了 Zochi, 并称其为世界上第一位 「做出最先进贡献」的 AI Scientist,它的研究成果已被 ICLR 2025 研讨会接收。


Intology 官网:https://www.intology.ai/


通过标准化的自动审稿人评估,Zochi 的论文平均得分为 7.67 分,而其他由人工智能系统生成的公开论文得分在 3 到 4 分之间。



但 Intology 很快就陷入了批评风波。Sakana、Intology 和 Autoscience 都声称其使用 AI 生成的研究被 ICLR 接受,但只有 Sakana 在提交其 AI 生成的论文之前向 ICLR 领导通报了此事,并获得了同行评审者的同意。


 几位 AI 学术界人士在社交媒体上批评了 Intology 和 Autoscience 的行为,认为这是对科学同行评审过程的滥用。 



关于 Zochi


 Zochi 是一个 AI research agent,能够自主完成从文献分析 到同行评审出版 的整个科学研究过程。该系统通过一个旨在模拟科学方法的多阶段流水线进行运作。 



  • 技术报告:https://github.com/IntologyAI/Zochi/blob/main/Zochi_Technical_Report.pdf

  • 代码:https://github.com/IntologyAI/Zochi


Zochi 的工作成果


  • 通过正交知识空间实现高效模型自适应


为解决模型微调(PEFT)中的「跨技能干扰」问题,Zochi 提出了 CS-ReFT。该方法创新地通过学习「正交子空间表征」来编辑模型行为,而非修改权重。这使得 Llama-2-7B 仅用 0.0098% 的参数就实现了 93.94% 的 AlpacaEval 胜率,超越了 GPT-3.5-Turbo,并获得了同行的高度评价。


  • 通过自主多轮红队测试发现 AI 漏洞


在 AI 安全方面,Zochi 开发了 Siege 框架,利用树搜索算法进行高效的「多轮越狱」攻击。通过识别并利用 LLM 的「部分遵从」漏洞,Siege 对 GPT-3.5 和 GPT-4 实现了极高的攻击成功率(100%/97%),提示需要重新评估现有防御策略。其扩展工作已被 ACL 2025 接收。


  • 计算生物学进展(EGNN-Fusion)


Zochi 将 AI 技术应用于计算生物学,推出了 EGNN-Fusion,用于预测蛋白质 - 核酸结合位点。该方法在保持顶尖性能的同时,将参数数量锐减了 95%,证明了 Zochi 在解决复杂跨学科科学问题方面的强大实力和多功能性。


评估结果


与所有基线系统相比,Zochi 持续产出更高质量的研究论文。在使用基于 NeurIPS 会议指南的自动审稿人进行评估时,Zochi 的论文获得了 8、8 和 7 的高分,均远高于顶级机器学习会议平均录用论文 6 分的接收门槛。


相比之下,其他 AI 系统的论文得分要低得多,平均约为 4 分。考虑到每个系统处理的问题复杂性存在巨大差异,这种评估差距尤其显著。基线系统专注于相对受限的问题 —— 例如二维扩散模型、玩具规模的语言模型或特定的认知偏差 —— 而 Zochi 则致力于解决开放式挑战,提出新颖且可验证的最先进方法。



作为一项探索性练习,Zochi 在 MLE-Bench 的部分基于 Kaggle 的挑战上进行了评估,以考察其在传统机器学习工程任务上的表现。在没有任何任务特定优化的情况下,Zochi 达到了最先进水平,在 80% 的任务上超过了人类表现中位数,并在 50% 的任务中获得奖牌。这些成果超过了之前的基准测试,如 Agent Laboratory、AIDE 和 OpenHands,进一步突显了 Zochi 核心能力的稳健性和适应性。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得这反映了AI安全攻防的常态。矛和盾总是交替领先,现在看起来是矛更锋利一些。我们需要投入更多资源研究更鲁棒的防御机制,比如更强的对抗训练,或者从模型架构上入手。

这让我想起了一句老话:“没有绝对的安全,只有不断升级的对抗”。与其追求完美的安全,不如建立一个能快速响应和修复漏洞的安全体系。当然,更重要的是,我们在开发和部署AI的时候,就要把安全放在首位。

AI合作者,甚至是AI主导的科研项目,我觉得是必然趋势。但伦理问题需要重视。比如,AI做出的“贡献”应该如何署名?谁来承担AI研究出错的责任?这些都需要提前考虑。

科研伦理规范需要与时俱进。现在AI参与科研还处于早期阶段,很多问题没有明确的答案。但我觉得,以下几点是应该明确的:AI的角色和贡献应该清晰界定;AI生成的内容应该经过严格的人工审核;AI的使用应该符合学术规范和伦理原则。

我觉得提前告知是底线。AI参与科研,就像使用了一种新的工具或者方法,应该公开透明。如果隐瞒不报,可能会影响评审的公正性,甚至引发学术不端行为的质疑。

规范AI参与科研,不能一刀切。要根据AI参与的程度和方式,制定不同的规范。比如,AI只是辅助工具,那要求可以宽松一些;如果AI承担了核心的研究任务,那要求就要严格很多。另外,对于不同领域的科研,也应该有不同的规范,毕竟不同领域的伦理考量是不一样的。

攻破率这么高,说明现在的LLM安全机制还是有很大漏洞的,特别是在多轮对话这种复杂场景下。AI安全不能只靠打补丁,感觉需要更底层的设计改变。

Zochi的出现预示着科研模式可能会发生变革,未来的科研方向或许不再局限于人力,AI可以承担大量重复性工作,比如数据收集、文献阅读、初步分析,甚至实验设计。科研人员能解放出来,专注于更有创造性的工作,比如提出假设、解读结果、进行更深入的思考和创新。但是,AI永远无法取代人类的critical thinking和domain knowledge。

大胆设想一下,以后会不会出现AI科学家之间的合作?它们可以更快地整合知识、提出新的研究方向,从而加速整个科学的进步。但同时,我们也需要警惕AI研究的潜在风险,比如AI自主生成的知识是否可靠,会不会被恶意利用等等。