图灵奖得主Sutton再发力:Swift-Sarsa算法在控制问题上展现线性强化学习新潜力

图灵奖得主Sutton发布Swift-Sarsa,将线性强化学习推向控制领域,有望在搭配强大预处理后媲美深度强化学习。

原文标题:图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

原文作者:机器之心

冷月清谈:

Sutton教授坚持认为,当前大型语言模型(LLM)基于模仿人类数据的学习已近极限,未来人工智能的发展将更多依赖于从经验中学习的强化学习。这一观点贯穿其研究。他最近发表的论文,将2024年提出的时序差分学习算法SwiftTD,扩展到控制领域,提出了Swift-Sarsa算法

Swift-Sarsa结合了SwiftTD的核心思想与True Online Sarsa (λ),主要应用于动作数量离散的线性控制问题。该算法旨在学习每个离散动作的价值函数,并通过策略函数选择动作,以最大化长期的生命周期平均奖励。

为评估Swift-Sarsa的性能,作者设计了“操作性条件反射基准”。该基准灵感来源于行为主义的动物学习实验,并强调智能体行为对奖励频率的影响,这与经典条件反射实验中动物无法控制奖励出现的特性形成对比。

实验结果显示,Swift-Sarsa的性能随元步长参数增大而提升,证明步长优化带来了明显益处,并且在较宽参数范围内能实现接近最优的奖励。尽管面临干扰特征数量增加带来的挑战,其性能会有所下降,但文章指出,如果能将Swift-Sarsa与更强大的预处理方法结合使用,它在更复杂的问题上,例如Atari游戏,有望达到与深度强化学习算法相当的性能水平。

怜星夜思:

1、文章里Sutton大佬又提到了他对LLM的看法,觉得靠模仿学习快到头了,未来还得是强化学习。你们觉得呢?AI的下一步突破,真的会是强化学习的“主场”吗?LLM还有没有其他进化方向?
2、Swift-Sarsa是线性算法, 文章最后说它结合预处理可能媲美DRL。大家怎么看这种“线性方法+复杂预处理”的路线?它和现在主流的端到端深度学习比起来,优势和劣势分别在哪?
3、文章提到了他们设计的“操作性条件反射基准”,灵感来源于动物实验。咱们自己设计强化学习实验环境的时候,除了常见的游戏和仿真器,还有哪些有趣的或者更有“现实意义”的灵感来源或者设计原则可以参考?

原文内容

机器之心报道

编辑:冷猫


不知道大家是否还记得,人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton,在一个多月前的演讲。


Sutton 认为,LLM 现在学习人类数据的知识已经接近极限,依靠「模仿人类」很难再有创新


未来人工智能的发展需要从经验中学习,而这一路径始终是「强化学习」


这也是 Sutton 一以贯之的观点,不论是过去的文章《苦涩的教训(Bitter Lesson)》还是近期的研究工作,都能够显示出这位 AI 领域的核心人物,对于建立一个简单通用的,面向下一个的强化学习算法的热情。



近些天,Sutton 再发新论文,在强化学习领域再次发力,将他在 2024 年的时序差分学习新算法 SwiftTD 拓展到控制领域,在与一些更强大的预处理算法结合使用时,能够展现出与深度强化学习算法相当的性能表现



  • 论文标题:Swift-Sarsa: Fast and Robust Linear Control

  • 论文链接:https://arxiv.org/abs/2507.19539v1


Sutton 在 2024 年提出了一种用于时序差分(TD)学习的新算法 ——SwiftTD。该算法在 True Online TD (λ) 的基础上进行了增强,融合了步长优化、对有效学习率的约束以及步长衰减机制。在实验中,SwiftTD 在多个源自 Atari 游戏的预测任务中均优于 True Online TD (λ) 和传统的 TD (λ),且对超参数的选择具有较强的鲁棒性。


在这篇论文中,作者将 SwiftTD 的核心思想与 True Online Sarsa (λ) 相结合,提出了一种基于策略的强化学习算法 ——Swift-Sarsa


此外,还提出了一个用于线性基于策略控制的简单基准测试环境,称为「操作性条件反射基准」(operant conditioning benchmark)。


问题与方法


控制问题


本论文的控制问题由观测(observations)和动作(actions)构成。智能体在每一个时间步 t 接收到一个观测向量 x_t ∈ ℝⁿ,并输出一个动作向量 a_t ∈ ℝᵈ。观测向量中包含一个特殊的分量,即奖励 r_t。该奖励所在的分量索引在整个智能体生命周期中是固定不变的。


控制问题的性能通过生命周期平均奖励(lifetime average reward)来衡量,定义如下:



在控制问题中,智能体所选择的动作将决定其未来所能感知到的观测,因此智能体的目标是通过控制未来的观测序列来最大化其生命周期奖励。


Swift-Sarsa


SwiftTD 能够比以往的 TD 学习算法更准确地学习预测值。使其具备更优预测能力的核心思想,同样也可以应用于控制算法中。将 SwiftTD 的关键思想与 True Online Sarsa (λ)(Van Seijen 等,2016)结合,是将其应用于控制问题最直接的方式。


在控制问题中,智能体在每一个时间步的输出是一个具有 d 个分量的向量。Swift-Sarsa 限于动作数量离散的问题。如果动作向量的每个分量只能取有限个数值,那么整个动作空间就可以表示为一个有限的离散动作集合。


Swift-Sarsa 使用 SwiftTD 来为其 m 个离散动作中的每一个学习一个价值函数。在每个时间步,它会计算所有动作的价值,并将它们堆叠起来形成一个动作 - 价值向量。一个策略函数 π: ℝᵐ → {1, …, m} 接收该动作 - 价值向量作为输入,并返回一个离散动作。


当前时间步所选动作的价值被用于构建 bootstrapped target,而前一时间步所选动作的价值则作为预测值用于估计 TD 误差。只有当前所选动作对应的价值函数的资格迹(eligibility trace)向量会被更新。


可以用一些记号对该算法进行更具体的描述。设 wiₜ 是在时间步 t 时,第 i 个动作对应的价值函数的权重向量,ϕₜ 是当前时间步的特征向量。那么,第 j 个动作的价值为:



所有动作对应的价值被堆叠形成一个动作 - 价值向量 v_t−1,t ∈ ℝᵐ,其中:


image.png


设 a_t 和 a_t-1 分别为时间步 t 和 t-1 选择的动作。Swift-Sarsa 中的 TD 误差为:



除这些修改外,Swift-Sarsa 与 SwiftTD 是一致的。算法 1 给出了 Swift-Sarsa 的伪代码。



策略函数可以是任意函数,通常会被设计为:价值越高的动作被选择的概率越大。两种常用策略是:


1. ϵ- 贪婪策略(ϵ-greedy policy):以 1 - ϵ 的概率选择具有最高价值的动作,以 ϵ 的概率随机选择一个动作;

2. Softmax 策略:将动作价值转化为离散概率分布。


关于 SwiftTD 算法,请参阅论文:



  • 论文标题:SwiftTD: A Fast and Robust Algorithm for Temporal Difference Learning

  • 论文链接:https://openreview.net/pdf?id=JdvFna9ZRF


操作性条件反射基准测试


作者设计了一个名为操作性条件反射基准(operant conditioning benchmark)的测试基准,用于评估 Swift-Sarsa 的性能。


该基准定义了一组控制问题,这些问题不需要复杂的探索策略,随机策略也能偶尔选择到最佳动作。这些问题的最优策略可以由线性学习器表示。


在该基准中的问题里,观测向量由 n 个二值分量组成,动作向量由 d 个二值分量组成。n 和 d 是超参数,只要 n > d,它们的任意组合都定义了一个有效的控制问题。


在某些特定的时间步,观测向量的前 m 个分量中恰好有一个为 1,其余时间步则全部为 0。当前 m 个分量中的第 i 个在某个时间步为 1 时,若智能体选择的动作向量中第 i 个分量为 1 且其余分量为 0,则该智能体将在之后获得一个延迟奖励。该奖励延迟 k_1 个时间步,其中 k_1 是一个变量,每次智能体选择该奖励动作时从区间 (ISI_1, ISI_2) 中均匀采样。在所有其他时间步,奖励为 0。


每隔 k_2 个时间步,观测向量的前 m 个分量中会随机有一个被置为 1,其中 k_2 是一个变量,每次从区间 (ITI_1, ITI_2) 中均匀采样。


在每一个时间步,观测向量中其余 n − m 个分量中每一个以概率 µ_t 被置为 1。初始时 µ_1 = 0.05,之后按如下规则递归更新。



操作性条件反射基准的灵感来源于 Rafiee 等人(2023)提出的动物学习基准。动物学习基准的设计灵感来自行为主义者在动物身上进行的经典条件反射实验,而操作性条件反射基准则是受到了操作性条件反射实验的启发。两者的关键区别在于:


  • 在操作性条件反射实验中,动物所选择的行为会影响奖励的出现频率;

  • 而在经典条件反射实验中,动物无法控制奖励的出现,只能学习去预测即将到来的奖励(如巴甫洛夫的狗实验)。



实验结果


本论文在操作性条件反射基准上针对不同的 n 值对 Swift-Sarsa 进行了实验。


图 1 展示了在两种不同 n 值下,元步长参数(meta-step-size)和初始步长参数对平均奖励的影响。类似于 SwiftTD 的表现,Swift-Sarsa 的性能随着元步长参数的增大而提升,表明步长优化带来了明显的好处。在较宽的参数范围内,Swift-Sarsa 实现的生命周期奖励接近最优生命周期奖励(约为 0.014)。当干扰特征数量增加时,问题变得更具挑战性,Swift-Sarsa 的表现也随之下降。



在第二组实验中,我们比较了步长衰减(step-size decay)对 Swift-Sarsa 性能的影响,结果如图 2 所示。与其在 SwiftTD 中的作用类似,当初始步长参数设置过大时,步长衰减能够提升 Swift-Sarsa 的性能。



值得注意的是,若将 Swift-Sarsa 与更强大的预处理方法结合使用,它在更复杂的问题上(如 Atari 游戏)可能也能达到与深度强化学习算法相当的性能水平


更多信息,请参阅原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


关于Sutton教授的观点,我个人倾向于认为,模仿学习(LLM)和强化学习并非完全割裂。LLM固然在现有数据上达到了惊人的泛化能力,但其“涌现能力”的边界确实值得思考。而强化学习,如Sutton所言,通过与环境互动从经验中学习,更能触及“智能”的本质。未来AI的突破,可能不是某一方的“主场”,而是两者更深层次的融合。例如,LLM作为RL智能体的高级策略规划器,或者RL用于优化LLM的交互逻辑,形成互补的生态。

哎呀,还不是看谁能把老板哄高兴了就设计什么呗!开个玩笑。我觉得除了动物行为学,可以看看人类的“坏习惯”或者“偏见”是怎么形成的,然后设计个环境让AI去“克服”它们。比如,模拟一个信息茧房环境,让AI学习怎么突破信息局限去获取更全面的信息。或者模拟一个时间管理不善的环境,让AI学习怎么高效利用碎片时间。这些场景可能比打游戏更能体现“智能”的社会价值,也更有意思。

这种“线性方法+预处理”的思路,有点像古典武侠里的“内功”和“兵器”。线性方法是内功,朴素但扎实;预处理就是兵器,越精良越能发挥内功的威力。深度学习就相当于直接把内功和兵器融为一体,练就了降龙十八掌这种武功。各有各的好处,线性方法可能更讲究章法和招式,适合精雕细琢;深度学习更追求一力降十会,在大数据面前粗暴有效。具体哪个好使,还得看面对的是什么敌人(问题)。

说白了,这就是“大力出奇迹”和“巧劲儿四两拨千斤”的区别。深度学习现在是大佬,直接生啃原始数据,力大砖飞。线性模型配预处理,就是想用更简单、更容易理解的模型,通过精巧的前期加工来达到同样甚至更好的效果。我觉得在一些计算资源有限或者对模型可解释性要求高的场景下,这种“精细化”思路还是很有前途的,总比动不动就抛个几十亿参数的模型出来要“接地气”得多。

哈哈,Sutton这老头就是个“死忠粉”啊!他意思就是,LLM就像是个背了好多书的高考状元,成绩是好,但真到了社会上解决问题(比如造个火箭),光靠书本知识肯定不够,还得“实践出真知”——也就是强化学习。我觉得吧,将来可能就是“高考状元”跟“实干家”搭伙干活,一个负责“说”,一个负责“做”,谁也离不开谁。AI的“诗和远方”可能是RL,但眼前的“柴米油盐”还得LLM先顶着。

引用一下问题:“未来AI的下一步突破,真的会是强化学习的“主场”吗?LLM还有没有其他进化方向?” 我觉得Sutton大佬说得有道理,LLM现在确实有点“撞墙”的感觉,数据量再大,也可能只是把现有知识排列组合得更好,创新性需要新的学习范式。但强化学习也不是万能钥匙,它在现实世界中的部署难度,比如环境建模、奖励稀疏、探索效率低等都是大问题。短期内,LLM在很多应用场景下还是更实用。也许未来得看哪个领域能更快解决各自的“卡脖子”问题吧。

我觉得可以从很多日常生活中寻找灵感!比如,设计一个“懒人做饭”环境:智能体要学习在冰箱只有有限食材、厨具不全的情况下,做出“还过得去”的饭菜,奖励机制可以是“好评度”和“食材消耗率”。或者“社交达人”环境:智能体学习如何回复微信消息(动作),以最大化朋友的好感度(奖励),同时避免成为“尬聊王”。甚至可以模拟“城市垃圾分类”:如何高效地分类丢弃垃圾,并最小化对环境的负面影响,奖励可以是“环保积分”。这样设计出来的环境,既有趣又有实用价值。

引用一下问题:“Swift-Sarsa结合预处理可能媲美DRL,大家怎么看这种‘线性方法+复杂预处理’的路线?”我认为这种路线回到了特征工程的传统,其优势在于模型的解释性更强,理论分析更透彻,且在数据效率上可能优于端到端的深度学习,尤其是在数据量有限或环境变化较小的情况下。预处理可以有效地将高维、非线性的原始输入映射到线性可分的特征空间,从而使简单的线性模型也能捕捉复杂的模式。劣势则在于预处理的通用性往往较差,需要领域知识,且其复杂性本身可能成为新的瓶颈,不如端到端DRL在图片、语音等非结构化数据上的通用性和自动化能力。

提问:“咱们自己设计强化学习实验环境的时候,除了常见的游戏和仿真器,还有哪些有趣的或者更有‘现实意义’的灵感来源或者设计原则可以参考?”除了文章提到的行为学实验,可以从现实世界的复杂系统中寻找灵感。例如,经济学中的市场博弈(多智能体、奖励稀疏)、社会科学中的资源分配与调度、甚至生态系统中的物种互动与平衡。设计原则上,关键在于抽象出明确的状态、动作和奖励信号,同时引入现实世界的挑战如时延、噪声、部分可观测性以及多目标优化。这样的环境设计,能更好地测试RL算法在真实世界约束下的鲁棒性和泛化能力。