2024图灵奖授予强化学习先驱Richard Sutton和Andrew Barto

强化学习先驱Richard Sutton和Andrew Barto荣获2024图灵奖,表彰他们在强化学习领域的奠基性贡献,该技术已成为现代人工智能的核心支柱。

原文标题:“强化学习之父”加冕!Richard Sutton及导师Andrew Barto斩获2024图灵奖!

原文作者:图灵编辑部

冷月清谈:

2024年ACM A.M. 图灵奖颁发给了Andrew G. Barto和Richard S. Sutton,以表彰他们在强化学习领域的奠基性贡献。自20世纪80年代以来,他们提出了强化学习的核心思想,构建了数学理论框架,并开发了重要的强化学习算法,例如时序差分学习。他们的工作对人工智能领域,尤其是深度强化学习的发展产生了深远的影响, AlphaGo、ChatGPT和DeepSeek等突破性成果都离不开强化学习技术的支持。强化学习不仅在游戏、自然语言处理等领域取得了显著成果,还在机器人控制、芯片设计、供应链管理等方面展现了巨大的潜力。

怜星夜思:

1、强化学习的未来发展方向有哪些?除了文中提到的应用领域,它还能在哪些领域发挥作用?
2、文章提到了强化学习对神经科学的启发,这是否意味着未来AI的研究可以更多地借鉴生物学和认知科学的成果?
3、时序差分学习在强化学习中起到了什么作用?它与其他强化学习算法有什么区别?

原文内容

2024 年 ACM A.M. 图灵奖揭晓,授予 Andrew G. Barto 和 Richard S. Sutton,以表彰他们在强化学习领域奠定的概念与算法基础。

这对学术搭档自 1980 年代起通过系列论文,不仅提出了强化学习的核心思想,构建了数学理论框架,更开发出重要的强化学习算法。

强化学习已成为打造智能系统的关键方法之一。

Barto 现任麻省大学阿默斯特分校信息与计算机科学荣誉教授,Sutton 则身兼阿尔伯塔大学计算机科学教授、Keen Technologies 首席科学家及阿尔伯塔机器智能研究院院士三重身份。

ACM A.M. 图灵奖素有“计算机界的诺贝尔奖”之称,奖金为 100 万美元,由 Google 公司资助。该奖项以英国数学家 Alan M. Turing 命名。

1

什么是强化学习 

人工智能的核心目标在于构建能够感知与行动的智能体。衡量智能体优劣的关键标准,是其选择行动策略的能力。

这种通过"奖励信号"优化行为的强化学习机制,其思想渊源可追溯至数千年前的动物驯化实践。

而 Alan Turing 早在 1950 年发表的论文《计算机与智能》中,就探讨了“机器能思考吗?”这一问题,并提出了一种基于奖励与惩罚的机器学习方法。

尽管图灵曾开展初步实验,Arthur Samuel 在 20 世纪 50 年代末也开发出通过自我对弈学习的跳棋程序,但此后数十年该领域进展缓慢。

直到 1980 年代初期,受心理学研究启发,Barto 与其博士生 Sutton 开始系统构建强化学习的理论框架。

他们借鉴了马尔可夫决策过程(MDP)提供的数学基础,在这个框架中,智能体在随机环境中做出决策,每次转换后收到奖励信号,并最大化其长期累积奖励。
标准 MDP 假设智能体完全了解环境,而强化学习则允许智能体在未知环境和奖励机制下进行学习。强化学习的最小信息需求与 MDP 框架的通用性,使强化学习算法可以应用于广泛的问题。
Barto 和 Sutton 及其合作者共同开发了强化学习的核心算法,包括他们最重要的贡献——时序差分学习(Temporal Difference),该方法在奖励预测问题上取得了突破。

此外,他们还提出了策略梯度(Policy Gradient)方法,并探索了神经网络在学习函数表示中的应用。他们还设计了结合学习与规划的智能体结构,展示了获取环境知识作为规划基础的价值。

除了算法贡献,他们合著的教材 Reinforcement Learning: An Introduction(《强化学习:导论》,1998 年)迄今仍是该领域圣经级著作,累计引用逾 75,000 次。这部经典不仅培养了几代研究者,至今仍在推动计算机科学前沿探索。

尽管 Barto 和 Sutton 早年开发的强化学习算法诞生于数十年前,但强化学习真正迎来爆发是在与深度学习融合之后(由 2018 年图灵奖得主 Bengio、Hinton 和 LeCun 共同推动)。强化学习的实际应用取得了巨大突破。这催生了深度强化学习技术。

强化学习最著名的应用案例之一是 AlphaGo,在 2016 和 2017 年击败了世界顶级围棋选手。

此外,近几年的 ChatGPT 也是强化学习技术的成功应用。ChatGPT 作为大型语言模型,其训练分为两个阶段,其中第二阶段采用了一种称为“基于人类反馈的强化学习”(Reinforcement Learning from Human Feedback, RLHF)的技术,以更好地符合人类期望。

最近大火的 DeepSeek 在其模型研发中广泛使用了强化学习技术。以突破性产品 DeepSeek-R1-Zero 为例,该模型创新性地采用全流程强化学习训练架构,跳过了传统 AI 训练必经的监督微调(SFT)阶段,直接通过大规模强化学习完成参数优化。这种模型展示了强大的推理能力,能够通过增加推理时间来解决复杂的任务。

强化学习还在多个领域取得了成功。例如,在机器人运动技能学习方面,强化学习帮助机器人完成了复杂的手部操作,如解开物理魔方。此外,强化学习也被应用于网络拥塞控制、芯片设计、互联网广告、优化计算、全球供应链管理、增强聊天机器人行为和推理能力,甚至优化计算机科学中最古老的问题之一——矩阵乘法。

有趣的是,强化学习最初受到神经科学的启发,而如今,它又反过来帮助神经科学研究。包括 Barto 在内的研究者发现,AI 领域发展出的强化学习算法,能很好地解释人脑多巴胺系统的各种实验结果。

2

大佬评价 

ACM 主席 Yannis Ioannidis 表示:“Barto 和 Sutton 的工作展示了跨学科研究对长期难题的巨大推动力。从认知科学、心理学到神经科学的研究,激发了强化学习的诞生,而强化学习又推动了人工智能的重大进展,并加深了我们对人脑运作机制的理解。他们的研究不仅是 AI 发展历程中的一块里程碑,更是一个不断进化的领域,仍在推动计算机科学乃至其他学科的创新。因此,将计算机领域最高奖项授予他们,实至名归。”

Google 高级副总裁 Jeff Dean 也强调:“1947 年,Alan Turing 曾在演讲中说:‘我们需要一台能从经验中学习的机器。’Barto 和 Sutton 开创的强化学习正是这一愿景的实现。他们的研究成为过去几十年 AI 进步的基石。强化学习技术依然是 AI 发展的核心支柱,推动了重大突破,吸引了众多年轻研究者,并催生了数十亿美元的投资。强化学习的影响力仍将延续至未来。Google 很荣幸能资助 ACM A.M. 图灵奖,以表彰那些塑造技术、改善世界的杰出人才。”

3

人物简介 

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系的荣休教授。他于 1977 年以博士后研究员的身份加入该校,随后担任过副教授、教授以及系主任等职务。Barto 本科毕业于密歇根大学,获得数学学士学位(荣誉),并在同校获得计算机与通信科学硕士和博士学位。

Barto 曾荣获马萨诸塞大学神经科学终身成就奖、国际人工智能联合会议(IJCAI)研究卓越奖以及 IEEE 神经网络学会先锋奖。他是电气与电子工程师协会(IEEE)会士,同时也是美国科学促进会(AAAS)会士。

Richard Sutton 是阿尔伯塔大学计算机科学系教授,同时担任人工通用智能公司 Keen Technologies(总部位于美国得克萨斯州达拉斯)的研究科学家,并担任阿尔伯塔机器智能研究所(Amii)的首席科学顾问。Sutton 曾在 2017 至 2023 年间担任 DeepMind 的杰出研究科学家。在加入阿尔伯塔大学之前,他曾于 1998 至 2002 年在新泽西州弗洛勒姆帕克的 AT&T 香农实验室人工智能部门担任首席技术人员。

Sutton 与 Andrew Barto 的合作始于 1978 年,当时他在马萨诸塞大学阿默斯特分校攻读博士学位,并在 Barto 的指导下完成了博士后研究。他本科毕业于斯坦福大学,获得心理学学士学位,随后在马萨诸塞大学阿默斯特分校获得计算机与信息科学硕士和博士学位。

Sutton 曾荣获国际人工智能联合会议研究卓越奖、加拿大人工智能协会终身成就奖,以及马萨诸塞大学阿默斯特分校杰出研究成就奖。他是英国皇家学会会士、人工智能促进协会(AAAI)会士,以及加拿大皇家学会会士。

4

相关图书推荐 

人工智能全景式解读

《人工智能简史(第2版)》
尼克 | 著

本书获得第七届中华优秀出版物图书奖、第八届吴文俊人工智能科技进步奖,入围央视“2017年度中国好书”,获选第十三届“文津图书奖”推荐图书。

全方位解读人工智能的来龙去脉,几乎覆盖人工智能学科的所有领域,包括人工智能的起源、自动定理证明、专家系统、神经网络、自然语言处理、遗传算法、深度学习、强化学习、超级智能、哲学问题和未来趋势等,以宏阔的视野和生动的语言,对人工智能进行了全面回顾和深度点评。


理解图灵

《理解图灵》
尼克|著

图灵 1936 年的文章《论可计算数》奠定了计算机科学的基础;而其 1950 年的文章《计算机与智能》则开启了人工智能,本书以注释形式对《计算机与智能》进行了细致解读。

书中首先追溯图灵的生平和思想轨迹,特别是他对智能与机器关系的早期洞察,以及他在计算理论方面的重大贡献——提出图灵机;接着通过分析图灵与同时代其他思想家的交流与辩论,如与哲学家维特根斯坦的深入对话,以及在 BBC 广播讨论中与神经生理学家杰弗逊的激烈交锋,逐步揭示了图灵对于机器智能的独到见解及其思想的演进过程。

强化学习相关

《深度学习入门4:强化学习》

斋藤康毅 | 著

郑明智 | 译
豆瓣评分 9.8,深受读者喜爱的“鱼书”系列第四弹,深度学习入门经典,从零开始掌握强化学习。沿袭“鱼书”系列风格,提供实际代码,边实践边学习,无须依赖外部库,从零开始实现支撑强化学习的基础技术。

《深度强化学习》
王树森 黎彧君 张志华 | 著

系列视频课全网播放量 100 万+,涵盖最近 10 年最重要的深度强化学习方法,围绕实用、精简两大原则,专注核心知识,成书篇幅仅 312 页,超轻松入门 DRL!全彩印刷,原创 140 多幅精美全彩插图,上市一周登上京东新书销量排行榜第一,口碑、内容兼具。


程序员学数学

《程序员的数学》(系列全四册)


深入浅出,内容涵盖程序员编程中需要掌握的数学知识,这本书从数学基础讲起,再到概率统计,线性代数等热门内容,帮助你掌握编程所需的基础数学知识和数学思维。内容包括机器学习、数据挖掘、模式识别等,作为大模型入门数学知识补充教程,这套书真是太实用了。



《程序员数学:用Python学透线性代数和微积分》

保罗·奥兰德|著

百度KFive|译
数学拥有无穷的力量。它既帮助游戏开发工程师建模物理世界,也帮助量化金融分析师赚取利润,还帮助音频处理工程师制作音乐。在数据科学和机器学习领域,数学知识更是不可或缺的。

本书以图文结合的方式帮助你用 Python 代码解决程序设计中的数学问题。通过边学边练,你会发现线性代数和微积分的重要概念跃然纸上、印在脑中。

《深度学习的数学》
[日]涌井良幸、涌井贞美|著
杨瑞龙|译
一本书掌握深度学习的数学基础知识!结合 235 幅插图和大量示例,基于 Excel 实践,直击神经网络根本原理。

内容来源:

https://awards.acm.org/about/2024-turing

我觉得强化学习在个性化教育方面很有潜力。想象一下,AI 导师可以根据学生的学习情况动态调整教学内容和方法,最终实现因材施教。

从学术角度来看,强化学习与其他机器学习方法的结合,比如迁移学习、元学习等,是一个很有前景的研究方向。这可以帮助强化学习算法更好地适应新的环境和任务。

必须的呀!人脑是最高级的智能体,对人脑的研究肯定能为AI发展提供灵感。说不定以后的AI就真的像人一样思考了。

时序差分学习的核心思想是通过比较不同时间点的预测值来更新模型。它不需要等到最终结果出来才进行学习,可以在过程中不断调整,效率更高。

针对“时序差分学习在强化学习中起到了什么作用?它与其他强化学习算法有什么区别?”这个问题,我认为时序差分学习是强化学习中一种重要的算法,它能够根据当前的奖励和对未来奖励的估计来更新策略,与其他算法相比,它更适合处理延迟奖励的情况。

简单来说,时序差分学习是一种预测未来奖励的方法。它与其他算法的区别主要在于更新策略的方式。比如,蒙特卡洛方法需要等到整个episode结束后才能更新,而时序差分学习可以在每一步进行更新。

关于“文章提到了强化学习对神经科学的启发,这是否意味着未来AI的研究可以更多地借鉴生物学和认知科学的成果?”这个问题,我认为是的,借鉴生物学和认知科学的成果可以为AI研究提供新的思路和方向,例如,模拟人脑的学习机制、注意力机制等。

我觉得这是一个值得探讨的方向。脑科学和AI的研究可以互相促进,共同发展。比如,强化学习可以用来模拟人类的决策过程,而这些模拟结果又能帮助我们更好地理解人脑的工作机制。

引用一下问题“强化学习的未来发展方向有哪些?除了文中提到的应用领域,它还能在哪些领域发挥作用?”,我认为强化学习在医疗领域的前景广阔,例如,可以用于辅助诊断、个性化治疗方案制定和药物研发等。