强化学习先驱Richard Sutton和Andrew Barto荣获2024图灵奖,表彰他们在强化学习领域的奠基性贡献,该技术已成为现代人工智能的核心支柱。
原文标题:“强化学习之父”加冕!Richard Sutton及导师Andrew Barto斩获2024图灵奖!
原文作者:图灵编辑部
冷月清谈:
怜星夜思:
2、文章提到了强化学习对神经科学的启发,这是否意味着未来AI的研究可以更多地借鉴生物学和认知科学的成果?
3、时序差分学习在强化学习中起到了什么作用?它与其他强化学习算法有什么区别?
原文内容
2024 年 ACM A.M. 图灵奖揭晓,授予 Andrew G. Barto 和 Richard S. Sutton,以表彰他们在强化学习领域奠定的概念与算法基础。
强化学习已成为打造智能系统的关键方法之一。
Barto 现任麻省大学阿默斯特分校信息与计算机科学荣誉教授,Sutton 则身兼阿尔伯塔大学计算机科学教授、Keen Technologies 首席科学家及阿尔伯塔机器智能研究院院士三重身份。
ACM A.M. 图灵奖素有“计算机界的诺贝尔奖”之称,奖金为 100 万美元,由 Google 公司资助。该奖项以英国数学家 Alan M. Turing 命名。
1►
什么是强化学习
人工智能的核心目标在于构建能够感知与行动的智能体。衡量智能体优劣的关键标准,是其选择行动策略的能力。
这种通过"奖励信号"优化行为的强化学习机制,其思想渊源可追溯至数千年前的动物驯化实践。
而 Alan Turing 早在 1950 年发表的论文《计算机与智能》中,就探讨了“机器能思考吗?”这一问题,并提出了一种基于奖励与惩罚的机器学习方法。
尽管图灵曾开展初步实验,Arthur Samuel 在 20 世纪 50 年代末也开发出通过自我对弈学习的跳棋程序,但此后数十年该领域进展缓慢。
直到 1980 年代初期,受心理学研究启发,Barto 与其博士生 Sutton 开始系统构建强化学习的理论框架。
此外,他们还提出了策略梯度(Policy Gradient)方法,并探索了神经网络在学习函数表示中的应用。他们还设计了结合学习与规划的智能体结构,展示了获取环境知识作为规划基础的价值。
除了算法贡献,他们合著的教材 Reinforcement Learning: An Introduction(《强化学习:导论》,1998 年)迄今仍是该领域圣经级著作,累计引用逾 75,000 次。这部经典不仅培养了几代研究者,至今仍在推动计算机科学前沿探索。
尽管 Barto 和 Sutton 早年开发的强化学习算法诞生于数十年前,但强化学习真正迎来爆发是在与深度学习融合之后(由 2018 年图灵奖得主 Bengio、Hinton 和 LeCun 共同推动)。强化学习的实际应用取得了巨大突破。这催生了深度强化学习技术。
强化学习最著名的应用案例之一是 AlphaGo,在 2016 和 2017 年击败了世界顶级围棋选手。
此外,近几年的 ChatGPT 也是强化学习技术的成功应用。ChatGPT 作为大型语言模型,其训练分为两个阶段,其中第二阶段采用了一种称为“基于人类反馈的强化学习”(Reinforcement Learning from Human Feedback, RLHF)的技术,以更好地符合人类期望。
最近大火的 DeepSeek 在其模型研发中广泛使用了强化学习技术。以突破性产品 DeepSeek-R1-Zero 为例,该模型创新性地采用全流程强化学习训练架构,跳过了传统 AI 训练必经的监督微调(SFT)阶段,直接通过大规模强化学习完成参数优化。这种模型展示了强大的推理能力,能够通过增加推理时间来解决复杂的任务。
强化学习还在多个领域取得了成功。例如,在机器人运动技能学习方面,强化学习帮助机器人完成了复杂的手部操作,如解开物理魔方。此外,强化学习也被应用于网络拥塞控制、芯片设计、互联网广告、优化计算、全球供应链管理、增强聊天机器人行为和推理能力,甚至优化计算机科学中最古老的问题之一——矩阵乘法。
有趣的是,强化学习最初受到神经科学的启发,而如今,它又反过来帮助神经科学研究。包括 Barto 在内的研究者发现,AI 领域发展出的强化学习算法,能很好地解释人脑多巴胺系统的各种实验结果。
2►
大佬评价
ACM 主席 Yannis Ioannidis 表示:“Barto 和 Sutton 的工作展示了跨学科研究对长期难题的巨大推动力。从认知科学、心理学到神经科学的研究,激发了强化学习的诞生,而强化学习又推动了人工智能的重大进展,并加深了我们对人脑运作机制的理解。他们的研究不仅是 AI 发展历程中的一块里程碑,更是一个不断进化的领域,仍在推动计算机科学乃至其他学科的创新。因此,将计算机领域最高奖项授予他们,实至名归。”
Google 高级副总裁 Jeff Dean 也强调:“1947 年,Alan Turing 曾在演讲中说:‘我们需要一台能从经验中学习的机器。’Barto 和 Sutton 开创的强化学习正是这一愿景的实现。他们的研究成为过去几十年 AI 进步的基石。强化学习技术依然是 AI 发展的核心支柱,推动了重大突破,吸引了众多年轻研究者,并催生了数十亿美元的投资。强化学习的影响力仍将延续至未来。Google 很荣幸能资助 ACM A.M. 图灵奖,以表彰那些塑造技术、改善世界的杰出人才。”
3►
人物简介
Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系的荣休教授。他于 1977 年以博士后研究员的身份加入该校,随后担任过副教授、教授以及系主任等职务。Barto 本科毕业于密歇根大学,获得数学学士学位(荣誉),并在同校获得计算机与通信科学硕士和博士学位。
Sutton 与 Andrew Barto 的合作始于 1978 年,当时他在马萨诸塞大学阿默斯特分校攻读博士学位,并在 Barto 的指导下完成了博士后研究。他本科毕业于斯坦福大学,获得心理学学士学位,随后在马萨诸塞大学阿默斯特分校获得计算机与信息科学硕士和博士学位。
Sutton 曾荣获国际人工智能联合会议研究卓越奖、加拿大人工智能协会终身成就奖,以及马萨诸塞大学阿默斯特分校杰出研究成就奖。他是英国皇家学会会士、人工智能促进协会(AAAI)会士,以及加拿大皇家学会会士。
4►
相关图书推荐
本书获得第七届中华优秀出版物图书奖、第八届吴文俊人工智能科技进步奖,入围央视“2017年度中国好书”,获选第十三届“文津图书奖”推荐图书。
全方位解读人工智能的来龙去脉,几乎覆盖人工智能学科的所有领域,包括人工智能的起源、自动定理证明、专家系统、神经网络、自然语言处理、遗传算法、深度学习、强化学习、超级智能、哲学问题和未来趋势等,以宏阔的视野和生动的语言,对人工智能进行了全面回顾和深度点评。
理解图灵
图灵 1936 年的文章《论可计算数》奠定了计算机科学的基础;而其 1950 年的文章《计算机与智能》则开启了人工智能,本书以注释形式对《计算机与智能》进行了细致解读。
强化学习相关
《深度学习入门4:强化学习》
斋藤康毅 | 著
系列视频课全网播放量 100 万+,涵盖最近 10 年最重要的深度强化学习方法,围绕实用、精简两大原则,专注核心知识,成书篇幅仅 312 页,超轻松入门 DRL!全彩印刷,原创 140 多幅精美全彩插图,上市一周登上京东新书销量排行榜第一,口碑、内容兼具。
程序员学数学
《程序员数学:用Python学透线性代数和微积分》
保罗·奥兰德|著
本书以图文结合的方式帮助你用 Python 代码解决程序设计中的数学问题。通过边学边练,你会发现线性代数和微积分的重要概念跃然纸上、印在脑中。
内容来源:
https://awards.acm.org/about/2024-turing