无需人工数据,清华等提出Absolute Zero自博弈大模型,登顶多项推理任务

清华大学等机构提出Absolute Zero自博弈大模型,无需人工数据,纯自博弈强化学习,在数学和编程推理任务中超越多个SOTA模型。

原文标题:零数据强化自我推理!清华等提出 Absolute Zero 自博弈大模型,完全无数据训练登顶多项任务

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为Absolute Zero“绝对零点推理器”(AZR)的新方法,该方法使模型能够在没有人工输入的情况下自主演进推理技能。AZR的核心思想是让一个统一的大语言模型(LLM)同时担任任务提出者(Proposer)与求解者(Solver),通过与可执行环境(如Python解释器)交互进行强化自博弈训练。该方法无需任何人工标注数据,在数学与编程推理任务上超过多个使用上万标注样本的SOTA模型。AZR通过模仿逻辑推理,设计了归纳、演绎、溯因这三种基本推理模式。实验结果表明,更大的基础模型和具备编码能力的模型能带来更好的性能提升,并且模型在训练过程中会自主学习添加中间注释,但同时也存在一些安全性问题。

怜星夜思:

1、AZR完全依赖可执行环境作为奖励信号,那么在面对没有明确可执行环境的任务时,例如开放域问答、创意写作等,这种方法是否还适用?如何改进?
2、文章提到AZR模型在训练过程中会自主学习添加中间注释,这是否意味着模型具备了一定的可解释性?这种可解释性对于我们理解模型推理过程有什么帮助?
3、AZR在完全没有人工数据的情况下,性能超越了很多基于人工标注数据训练的模型,这是否预示着未来人工智能的发展方向?我们应该如何看待人工数据在AI发展中的作用?

原文内容

源:多模态机器学习与大模型

本文共2300字,建议阅读10分钟
本文介绍了一种名为
Absolute Zero“绝对零点推理器”(AZR)的新方法,它为模型提供了一种无需人工输入即可自主演进推理技能的方法。


  • 作者:Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng*, Gao Huang*

  • 作者单位

    • 清华大学
    • 北京通用人工智能研究院(BIGAI)
    • 宾夕法尼亚州立大学
  • 论文链接

    https://arxiv.org/abs/2505.03335

  • 代码链接

    https://github.com/LeapLabTHU/Absolute-Zero-Reasoner


简介


人工智能模型如何在没有人类数据的情况下自我学习?


通过学习人工筛选的样本,LLM的推理能力正在不断提升,但这种对专家精心制作数据的依赖正成为瓶颈。随着模型能力的提升,维护高质量训练数据集的努力正变得难以为继。


本文介绍了一种名为 Absolute Zero“绝对零点推理器”(AZR)的新方法,它为模型提供了一种无需人工输入即可自主演进推理技能的方法。目前,大多数推理模型依赖于可验证奖励的强化学习(RLVR),其中反馈来自基于结果的指标,例如代码正确性。具体实现为 Absolute Zero Reasoner (AZR) 系统:一个统一的大语言模型(LLM)同时担任任务提出者(Proposer)与求解者(Solver),通过与可执行环境(如Python解释器)交互进行强化自博弈训练。尽管完全未用人类标注数据,AZR在数学与编程推理任务上超过多个使用上万标注样本的SOTA模型。绝对零范式如图1所示:


图 1. 绝对零范式


监督学习依赖于人工策划的推理轨迹进行行为克隆。强化学习基于已验证的奖励,使agent能够自学推理,但仍然依赖于专家定义的学习分布和一组精心策划的问答对,这需要领域专业知识和人工投入。相比之下,文中引入了一种新的范式——绝对零度,用于在没有任何人工策划数据的情况下训练推理模型。设想agent应该自主地提出针对可学习性进行优化的任务,并学习如何使用统一模型来解决这些任务。agent通过与提供可验证反馈的环境交互来学习,从而完全无需人工干预即可实现可靠且持续的自我改进。


研究动机


  • 传统监督学习(SFT 需人工标注推理过程,不可扩展;
  • RLVR(带可验证奖励的强化学习) 虽可缓解部分问题,但仍需人类提供QA分布;
  • 大模型能力提升后,人工设计任务对其训练增益逐渐降低;
  • 亟需自我提出、自我解决、自我学习的范式,即 Absolute Zero Paradigm。


论文贡献


  1. 提出Absolute Zero Paradigm:零数据、零外部QA、纯自博弈强化学习;
  2. 实现Absolute Zero Reasoner(AZR): 统一模型自举学习多种推理任务;
  3. 使用可执行环境(code executor)作为唯一奖励源;
  4. 设计三种基本推理任务:归纳、演绎、溯因;
  5. 在无需任何人类数据的前提下,AZR在代码与数学任务中超过多个SOTA;
  6. 提出新型优势估计器 TRR++,用于多任务强化学习。


Absolute Zero Reasoner的工作原理


AZR模型如图2所示,采用任务创建和问题解决的连续循环,以三种核心推理模式为指导。它依赖于代码执行器,该执行器无需人工干预即可验证任务、检查解决方案并提供客观反馈。


(1)双重角色:


AZR 将 LLM 同时作为:


  • 任务提出者(Proposer):生成可学习推理任务;
  • 任务求解者(Solver):尝试解决这些任务;


提出者和求解者同一个模型身兼两职。作为提出者,它会生成编码任务,例如编写函数或预测输出,同时确保这些任务既不太简单也不太难以解决。作为求解者,它会尝试执行这些任务,通过反复试验来提升其推理能力。奖励分为:提出者因创建“A”任务(中等难度)而获得积分,而求解者则根据正确性获得评分。


(2)三种推理模式


任务分为三类,受逻辑推理的启发:


演绎:根据代码和输入预测输出(例如,“当x=3 时,f(x)=x+2返回?”)。

溯因推理:推断产生特定输出的输入(例如,“找到x使得f(x)=5 ”)。

归纳:编写与输入输出示例相匹配的代码(例如,“创建一个映射这些对的函数”)

目标函数为:

每种模式都针对不同的认知技能,从循序渐进的逻辑推理(演绎推理)到创造性解决问题(溯因推理)。通过循环执行这些任务,AZR 能够构建对代码和逻辑的广泛而灵活的理解。


图2. AZR的总体流程


模块 1:推理任务三分类

每个任务形式为三元组 


  1. Deduction(演绎):给定程序和输入,预测输出 
  2. Abduction(溯因):给定程序和输出,预测输入   使得 
  3. Induction(归纳):给定多个输入输出例子,归纳出生成它们的程序 

模块 2:任务奖励机制

  • 提出任务奖励(Learnability)


若任务太简单或太难,则不奖励;中等难度任务可提供最大训练增益:

  • 求解任务奖励(Accuracy)
  • 最终奖励


考虑格式规范性惩罚:


模块 3:自博弈训练流程(Self-Play Training)


步骤如下:


  1. 初始化三类任务缓冲区(Ded, Abd, Ind);

  2. 每轮:

    • Propose 新任务;
    • 用环境验证是否合法;
    • Add to buffer;
    • Solve 给定任务;
    • 奖励计算 + RL更新(使用 TRR++)。


强化学习采用 Task-Relative REINFORCE++(TRR++)


实验结果


实验设置

  • 模型:Qwen2.5系列(3B / 7B / 14B),Llama3.1-8B;

  • 数据完全无人工数据

  • 评估

    • 数学:AIME, OlympiadBench, AMC, MATH500, Minerva 等;
    • 编程:HumanEval+, MBPP+, LiveCodeBench 等。

主要结果

Absolute Zero Reasoner 的优势:


Absolute Zero Reasoner 模型完全无需人工数据即可进行训练,其性能甚至超越了基于数千个专家示例进行微调的模型。在 HumanEval+ 和 MBPP+ 等编码基准测试中,它创下了新的 SOTA 得分。



在数学推理(AIME、AMC)中,即使仅针对代码任务进行训练,它也展现出强大的跨领域泛化能力。主要发现包括:


扩展优势:更大的基础模型(7B→14B 参数)显示出更大的性能提升,这表明随着模型的增长,性能会持续提升。


代码增强推理能力:经过 AZR 训练后,在代码上预先训练的模型在数学方面的表现优于通用模型,这暗示了编程和抽象推理之间的协同作用。


紧急计划:与人类一样,AZR 开始在其代码中添加分步注释,模仿 ReAct 提示等技术,这是一种未明确教授的行为。



然而,也存在一些需要注意的问题。较大的模型偶尔会在推理链中产生较差的结果,这凸显了安全保障措施的必要性。此外,自主系统可能会出现意想不到的行为,而且随着任务变得越来越抽象,验证其解决方案也会变得越来越困难。


论文总结


总体来说AZR的主要特点如下:


(1)不需要人工数据,性能仍超SOTA

(2)初始具编码能力的模型提升更快

(3) 不同任务类型互补:全保留性能最好

(4) 模型逐渐出现“中间注释计划”行为

(5) 不同推理任务表现出不同的“认知行为”

(6) Llama模型有时出现奇怪输出,提示安全性问题


编辑:王菁




欢迎大家扫码加入粉丝群(任选其一即可)







关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


别忘了,AZR仍然需要可执行环境作为奖励信号,这在某种程度上也算是一种“人工干预”。真正完全无监督的AI,可能还需要很长的路要走。人工数据的价值在于其蕴含着人类的知识和经验,这是当前AI模型难以完全替代的。

这确实是个挑战!没有明确的“正确答案”,奖励信号就很难定义。也许可以借鉴GAN的思路,让AZR模型自己生成“伪标签”,然后学习预测这些标签。当然,这需要仔细设计损失函数,避免模型“自欺欺人”。

别太乐观!注释可能是模型为了获得更高奖励而采取的一种策略,就像学生为了考试而背诵公式一样。关键是要判断这些注释是否真的反映了模型对问题的理解,而不是简单的模式匹配。