ICLR 2025 时间检验奖揭晓:Adam算法与注意力机制论文荣获殊荣

ICLR 2025 时间检验奖:Adam算法与注意力机制论文获奖。Adam算法因其广泛应用和加速训练的特性,再次证明了其在深度学习领域的持久影响力。

原文标题:继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖

原文作者:机器之心

冷月清谈:

ICLR 2025 颁发了时间检验奖,表彰了在 ICLR 2015 上发表的、对领域产生深远影响的论文。Adam 算法凭借其在深度学习优化方面的卓越表现获得冠军,该算法通过结合动量法和 RMSprop 算法的思想,实现了更快的收敛速度和更稳定的训练过程,成为深度学习领域应用最广泛的优化算法之一。亚军则由早于 Transformer 引入注意力机制的论文「Neural Machine Translation by Jointly Learning to Align and Translate」获得,该论文引入的注意力机制为后续的 Transformer 模型奠定了基础。Adam 算法的两位作者 Diederik P. Kingma 和 Jimmy Lei Ba 以及亚军论文的作者 Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 也都为人工智能领域做出了杰出贡献。

怜星夜思:

1、Adam 算法在实际应用中,有哪些需要特别注意的参数调优技巧?你遇到过哪些坑?
2、Transformer 出现之后,注意力机制得到了更广泛的应用,你认为除了 NLP 领域,注意力机制还能在哪些领域发挥更大的作用?
3、两位作者都获得了 ICLR 时间检验奖,你认为是什么样的品质或者习惯,让他们能够在科研领域取得如此成就?

原文内容

机器之心报道

编辑:张倩


刚刚,ICLR 2025 宣布了今年的时间检验奖获奖论文。这个奖项旨在表彰十年前在 ICLR 2015 上发表的对该领域产生持久影响的论文。



经久不衰的「Adam 算法」拿到了冠军,比 Transformer 论文更早引入注意力机制的「Neural Machine Translation by Jointly Learning to Align and Translate」拿到了亚军。这样的结果可谓「实至名归」。


Adam:深度学习领域应用最广泛的优化算法之一


Adam 算法,即 Adaptive Moment Estimation 算法,是一种结合了动量法和 RMSprop 算法思想的自适应学习率优化算法。


Adam 革命性地改变了神经网络训练,在各种架构和任务中实现了显著更快的收敛速度和更稳定的训练过程。如今,它已经成为深度学习中最广泛采用的优化算法之一。


Adam 算法的创新之处在于,它结合了 AdaGrad 和 RMSProp 的优点,通过维护第一矩估计(均值)和第二矩估计(未中心化的方差)来动态调整每个参数的学习率,能够处理稀疏梯度和非平稳目标函数。


它的重要性体现在其广泛的应用场景,无论是计算机视觉、自然语言处理还是强化学习等领域,Adam 算法都为模型的高效训练提供了有力支持,极大地提高了模型的训练效率和性能,成为无数最先进模型的默认优化器。


根据 Google Scholar 的数据,Adam 论文的被引量已经超过 21 万。



论文链接:https://arxiv.org/abs/1412.6980 


该论文总共有两位作者 ——Diederik P. Kingma 和 Jimmy Lei Ba。


Diederik P. Kingma 是一位计算机科学家和研究员,专注于机器学习和生成式建模的可扩展方法。他的重要贡献包括变分自编码器(VAE)、Adam 优化器、Glow 和变分扩散模型。其中,VAE 获得了去年的 ICLR 时间检验奖。所以,这次是 Diederik P. Kingma 第二次获得该奖项。而截至目前,该奖项总共就颁了两次。


2017 年,他以优异成绩获得阿姆斯特丹大学博士学位。2015 年,他作为创始团队成员参与创建了 OpenAI。在此之前,他共同创立了 Advanza 公司,该公司于 2016 年被收购。


他的职业生涯包括:


  • 2009 年和 2012 年:在纽约大学 Yann LeCun 实验室担任初级研究科学家;

  • 2010-2012 年:Advanza 联合创始人兼技术负责人,公司于 2016 年成功退出;

  • 2013-2017 年:在阿姆斯特丹大学攻读博士学位,导师为 Max Welling,研究领域为深度学习和生成模型;

  • 2015-2018 年:OpenAI 创始团队成员和研究科学家,领导算法团队,专注于基础研究;

  • 2018-2024 年:在 Google Brain/DeepMind 担任研究科学家,领导多个研究项目,主要是文本、图像和视频的生成模型;

  • 2024 年至今:在 Anthropic 研究大规模机器学习。



另一位作者多伦多大学 Jimmy Lei Ba 现在是多伦多大学的助理教授。他的长期研究目标是解决一个计算问题:如何构建具有人类效率和适应性的通用问题解决机器。他的研究兴趣主要集中在开发高效的深度神经网络学习算法上。他的研究领域与 NeurIPS、ICLR 和 ICML 等研究社区有交叉。此外,他对强化学习、自然语言处理和人工智能也有广泛的兴趣。


Jimmy Lei Ba 在 Geoffrey Hinton 的指导下完成了博士学位。他的硕士(2014 年)和本科学位(2011 年)均在多伦多大学获得,师从 Brendan Frey 和 Ruslan Salakhutdinov。他是 CIFAR AI chair,曾在 2016 年获得 Facebook 机器学习研究生奖学金。



亚军论文

比 Transformer 提前三年引入注意力机制


获得 ICLR 时间检验奖亚军的论文「Neural Machine Translation by Jointly Learning to Align and Translate」同样来头不小,图灵奖得主 Yoshua Bengio 是该论文的作者之一。



论文链接:https://arxiv.org/abs/1409.0473


去年 12 月,AI 大牛 Andrej Karpathy 专门发帖为这篇论文鸣不平,称它是「真正引入注意力机制的论文」,但受到的关注远远不及三年后才出现的 Transformer 论文。




具体来说,这篇论文的创新之处在于,它引入了一种注意力形式,从根本上改变了序列到序列模型处理信息的方式。在此之前,编码器 - 解码器架构通常将整个输入序列压缩为固定长度的向量,从而为较长的序列造成内存瓶颈。该方法使模型能够在翻译过程中动态地「关注」源句子的不同部分,从而处理相关的上下文信息。这种注意力机制已经成为现代深度学习的基石,远远超出了机器翻译的范畴,形成了 transformer 和大型语言模型的基础。这篇论文的实际影响是巨大的,使其成为对神经网络架构最有影响力的贡献之一。


这篇论文总共有三位作者:Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio


Dzmitry Bahdanau 在加拿大 Mila 研究所完成了博士学位,师从 Yoshua Bengio。他现在是一位在 ServiceNow 旗下(前 Element AI)工作的研究科学家。他同时也是 Mila 的核心产业成员和麦吉尔大学的兼职教授。


Dzmitry Bahdanau 坚信人类语言技术(HLT,他认为这是比 NLP 更好的称呼)将改变人类与软件交互和获取知识的方式。事实上,这种改变已经开始发生(比如网络搜索),但这仅仅是个开始。Bahdanau 对 HLT 技术栈各个层面的研究问题都有浓厚兴趣,包括深度学习基础、基础模型训练、特定任务算法(尤其是语义解析)以及用户与 AI 系统的交互体验。他近期正在进行的工作主要集中在语义解析和面向任务的对话方法、代码生成、神经模型的系统性(组合性)泛化和样本效率上。



在发给 Karpathy 的邮件中,Dzmitry Bahdanau 曾详细谈过他们当年研究「注意力机制」的往事。



他提到,「 我作为实习生来到 Yoshua 的实验室…… 我告诉 Yoshua 我愿意做任何工作。Yoshua 安排我参与机器翻译项目…… 有一天,我突然想到让解码器 RNN 学习在源序列中搜索放置游标的位置会很好。这有点受到翻译练习的启发,在中学学习英语时会用到这种练习。当你翻译时,目光在源序列和目标序列之间来回移动。我提出了对 BiRNN 状态进行软搜索作为 softmax 然后进行加权平均的想法。这个方法从一开始就表现出色,令人振奋 。我称这种架构为 RNNSearch,我们赶紧发布了一篇 arXiv 论文,因为我们知道 Ilya 和谷歌的同事们在他们强大的 8 个 GPU LSTM 模型(RNN Search 仍在 1 个 GPU 上运行)上领先于我们。事后证明,这个名称不太好。更好的名称(attention)是由 Yoshua 在最终定稿中添加的。」


另一位作者 Kyunghyun Cho 是纽约大学计算机科学和数据科学教授,同时担任 Genentech Research & Early Development (gRED) Prescient Design 团队的前沿研究执行总监。2025 年,他被任命为 Glen de Vries 健康统计学教授。在获奖论文写作期间,他曾在蒙特利尔大学担任博士后研究员,师从 Yoshua Bengio 教授。



在 ICLR 时间检验奖颁发之际,或许我们也可以重读这些经典论文,从中找到关于未来方向的新启发。


参考链接:https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我感觉注意力机制在物联网(IoT)领域也会有用武之地。 海量的传感器数据,总有一些是关键的,把注意力机制用上去,应该可以更有效地提取重要信息,提升设备运行效率, 比如说预测性维护啥的。

我觉得最重要的是好奇心和坚持。你看他们的研究方向,都是围绕着深度学习的基础问题。他们没有追逐热点,而是深入研究底层原理。这种对知识的渴望和对真理的追求,是他们成功的关键。另外,科研道路是漫长而艰辛的,需要有足够的毅力和耐心才能坚持下去。

从我个人的经验来看,良好的合作精神也很重要。科研不是单打独斗,需要和不同的研究者交流合作,才能碰撞出新的火花。你看这两篇获奖论文,都是多人合作完成的。这种团队合作,可以集思广益,提高研究效率。

从学术的角度来说,Adam 的参数调优确实是个复杂的问题。一般建议从调整学习率开始,可以考虑使用 grid search 或者 Bayesian optimization 等方法。另外,β1 和 β2 两个参数也很重要,β1 控制的是动量,β2 控制的是自适应学习率,具体取值需要根据数据集特性来调整。我个人觉得,可以参考一些 paper 里的推荐值,比如 β1=0.9, β2=0.999,然后在这个基础上进行微调。此外,对于某些特别的任务,可以尝试 AdamW,它在 Adam 的基础上加入了 weight decay,据说效果更好。

我觉得大佬们成功的秘诀就是 “兴趣是最好的老师” 吧。 像 Kingma 这样,对生成模型有浓厚的兴趣,才能在 VAE, Adam, Glow 等多个领域做出突破。 咱们普通人,能找到自己真正热爱的方向,就已经成功一半了!

这个问题很有意思!我觉得注意力机制在计算机视觉领域还有很大的潜力。比如,在图像分割任务中,可以使用注意力机制来突出图像中的关键区域,从而提高分割精度。另外,在视频处理领域,可以使用注意力机制来跟踪视频中的目标,或者提取视频中的关键帧。总而言之,只要是涉及到序列数据或者需要关注特定区域的任务,都可以考虑使用注意力机制。

这个问题问得好!Adam 虽然好用,但也不是万能的。我踩过的坑就是学习率设置,一开始用默认的 0.001,结果loss震荡剧烈,后来发现针对特定任务,比如GAN,需要把学习率调小到0.0002甚至更低。还有个trick是观察loss曲线,如果前期下降很快,后期 plateau,可以考虑使用学习率衰减策略。另外,Adam对batch size也很敏感,batch size太小,梯度方差会变大,影响收敛。

哈哈哈,楼上都是大佬!我就说个简单点的。我之前训练模型的时候,直接用的 Adam,结果效果一直上不去。后来发现是因为我对数据没做归一化处理。数据归一化后,loss 马上下降。所以,有时候不是算法的问题,而是数据预处理的问题。一定要记得数据预处理啊!

从更理论化的角度来看,注意力机制本质上是一种动态加权机制,它允许模型根据输入的不同部分,自适应地调整权重。这种机制可以应用于任何需要关注不同特征的任务。例如,在推荐系统中,可以使用注意力机制来捕捉用户对不同商品的偏好;在金融领域,可以使用注意力机制来识别欺诈交易。甚至在生物信息学领域,也可以使用注意力机制来分析基因序列。