清华大学等机构提出Absolute Zero自博弈大模型,无需人工数据,纯自博弈强化学习,在数学和编程推理任务中超越多个SOTA模型。
原文标题:零数据强化自我推理!清华等提出 Absolute Zero 自博弈大模型,完全无数据训练登顶多项任务
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章提到AZR模型在训练过程中会自主学习添加中间注释,这是否意味着模型具备了一定的可解释性?这种可解释性对于我们理解模型推理过程有什么帮助?
3、AZR在完全没有人工数据的情况下,性能超越了很多基于人工标注数据训练的模型,这是否预示着未来人工智能的发展方向?我们应该如何看待人工数据在AI发展中的作用?
原文内容
来源:多模态机器学习与大模型本文共2300字,建议阅读10分钟
本文介绍了一种名为Absolute Zero“绝对零点推理器”(AZR)的新方法,它为模型提供了一种无需人工输入即可自主演进推理技能的方法。
-
作者:Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng*, Gao Huang*
-
作者单位:
-
清华大学
-
北京通用人工智能研究院(BIGAI)
-
宾夕法尼亚州立大学
-
论文链接:
https://arxiv.org/abs/2505.03335
-
代码链接:
https://github.com/LeapLabTHU/Absolute-Zero-Reasoner
简介
人工智能模型如何在没有人类数据的情况下自我学习?
通过学习人工筛选的样本,LLM的推理能力正在不断提升,但这种对专家精心制作数据的依赖正成为瓶颈。随着模型能力的提升,维护高质量训练数据集的努力正变得难以为继。
本文介绍了一种名为 Absolute Zero“绝对零点推理器”(AZR)的新方法,它为模型提供了一种无需人工输入即可自主演进推理技能的方法。目前,大多数推理模型依赖于可验证奖励的强化学习(RLVR),其中反馈来自基于结果的指标,例如代码正确性。具体实现为 Absolute Zero Reasoner (AZR) 系统:一个统一的大语言模型(LLM)同时担任任务提出者(Proposer)与求解者(Solver),通过与可执行环境(如Python解释器)交互进行强化自博弈训练。尽管完全未用人类标注数据,AZR在数学与编程推理任务上超过多个使用上万标注样本的SOTA模型。绝对零范式如图1所示:
图 1. 绝对零范式
监督学习依赖于人工策划的推理轨迹进行行为克隆。强化学习基于已验证的奖励,使agent能够自学推理,但仍然依赖于专家定义的学习分布和一组精心策划的问答对,这需要领域专业知识和人工投入。相比之下,文中引入了一种新的范式——绝对零度,用于在没有任何人工策划数据的情况下训练推理模型。设想agent应该自主地提出针对可学习性进行优化的任务,并学习如何使用统一模型来解决这些任务。agent通过与提供可验证反馈的环境交互来学习,从而完全无需人工干预即可实现可靠且持续的自我改进。
研究动机
-
传统监督学习(SFT) 需人工标注推理过程,不可扩展;
-
RLVR(带可验证奖励的强化学习) 虽可缓解部分问题,但仍需人类提供QA分布;
-
大模型能力提升后,人工设计任务对其训练增益逐渐降低;
-
亟需自我提出、自我解决、自我学习的范式,即 Absolute Zero Paradigm。
论文贡献
-
提出Absolute Zero Paradigm:零数据、零外部QA、纯自博弈强化学习;
-
实现Absolute Zero Reasoner(AZR): 统一模型自举学习多种推理任务;
-
使用可执行环境(code executor)作为唯一奖励源;
-
设计三种基本推理任务:归纳、演绎、溯因;
-
在无需任何人类数据的前提下,AZR在代码与数学任务中超过多个SOTA;
-
提出新型优势估计器 TRR++,用于多任务强化学习。
Absolute Zero Reasoner的工作原理
AZR模型如图2所示,采用任务创建和问题解决的连续循环,以三种核心推理模式为指导。它依赖于代码执行器,该执行器无需人工干预即可验证任务、检查解决方案并提供客观反馈。
(1)双重角色:
AZR 将 LLM 同时作为:
-
任务提出者(Proposer):生成可学习推理任务;
-
任务求解者(Solver):尝试解决这些任务;
提出者和求解者同一个模型身兼两职。作为提出者,它会生成编码任务,例如编写函数或预测输出,同时确保这些任务既不太简单也不太难以解决。作为求解者,它会尝试执行这些任务,通过反复试验来提升其推理能力。奖励分为:提出者因创建“A”任务(中等难度)而获得积分,而求解者则根据正确性获得评分。
(2)三种推理模式
任务分为三类,受逻辑推理的启发:
演绎:根据代码和输入预测输出(例如,“当x=3 时,f(x)=x+2返回?”)。
溯因推理:推断产生特定输出的输入(例如,“找到x使得f(x)=5 ”)。
归纳:编写与输入输出示例相匹配的代码(例如,“创建一个映射这些对的函数”)
目标函数为:
每种模式都针对不同的认知技能,从循序渐进的逻辑推理(演绎推理)到创造性解决问题(溯因推理)。通过循环执行这些任务,AZR 能够构建对代码和逻辑的广泛而灵活的理解。
图2. AZR的总体流程
模块 1:推理任务三分类
每个任务形式为三元组 :
-
Deduction(演绎):给定程序和输入,预测输出 ;
-
Abduction(溯因):给定程序和输出,预测输入 使得 ;
-
Induction(归纳):给定多个输入输出例子,归纳出生成它们的程序 。
模块 2:任务奖励机制
-
提出任务奖励(Learnability):
若任务太简单或太难,则不奖励;中等难度任务可提供最大训练增益:
-
求解任务奖励(Accuracy):
-
最终奖励:
考虑格式规范性惩罚:
模块 3:自博弈训练流程(Self-Play Training)
步骤如下:
-
初始化三类任务缓冲区(Ded, Abd, Ind);
-
每轮:
-
Propose 新任务;
-
用环境验证是否合法;
-
Add to buffer;
-
Solve 给定任务;
-
奖励计算 + RL更新(使用 TRR++)。
强化学习采用 Task-Relative REINFORCE++(TRR++):
实验结果
实验设置
-
模型:Qwen2.5系列(3B / 7B / 14B),Llama3.1-8B;
-
数据:完全无人工数据;
-
评估:
-
数学:AIME, OlympiadBench, AMC, MATH500, Minerva 等;
-
编程:HumanEval+, MBPP+, LiveCodeBench 等。
主要结果
Absolute Zero Reasoner 的优势:
Absolute Zero Reasoner 模型完全无需人工数据即可进行训练,其性能甚至超越了基于数千个专家示例进行微调的模型。在 HumanEval+ 和 MBPP+ 等编码基准测试中,它创下了新的 SOTA 得分。
在数学推理(AIME、AMC)中,即使仅针对代码任务进行训练,它也展现出强大的跨领域泛化能力。主要发现包括:
扩展优势:更大的基础模型(7B→14B 参数)显示出更大的性能提升,这表明随着模型的增长,性能会持续提升。
代码增强推理能力:经过 AZR 训练后,在代码上预先训练的模型在数学方面的表现优于通用模型,这暗示了编程和抽象推理之间的协同作用。
紧急计划:与人类一样,AZR 开始在其代码中添加分步注释,模仿 ReAct 提示等技术,这是一种未明确教授的行为。
然而,也存在一些需要注意的问题。较大的模型偶尔会在推理链中产生较差的结果,这凸显了安全保障措施的必要性。此外,自主系统可能会出现意想不到的行为,而且随着任务变得越来越抽象,验证其解决方案也会变得越来越困难。
论文总结
总体来说AZR的主要特点如下:
(1)不需要人工数据,性能仍超SOTA;
(2)初始具编码能力的模型提升更快;
(3) 不同任务类型互补:全保留性能最好;
(4) 模型逐渐出现“中间注释计划”行为;
(5) 不同推理任务表现出不同的“认知行为”;
(6) Llama模型有时出现奇怪输出,提示安全性问题。