LeCun 的 AI 技术路线:从无监督学习到自主智能

LeCun 的 AI 路线:从无监督学习到自监督学习、能量模型、世界模型,最终走向自主智能。

原文标题:错判「RL 没前途」, LeCun 在技术路线还有哪些坚持?

原文作者:机器之心

冷月清谈:

本文探讨了 Yann LeCun 在人工智能技术路线上的坚持和发展。文章从 Andrej Karpathy 对强化学习的“悔恨”出发,对比了 LeCun 对 AI 技术方向的坚定态度。LeCun 认为,实现人类水平的 AI 不能依赖于监督学习或纯强化学习。他最初推崇无监督学习,认为其能够弥补机器学习在预测能力上的不足。随后,他将重点转向自监督学习,并提出了能量模型和世界模型的概念。最终,LeCun 提出了自主智能框架,其中包含目标驱动 AI、世界模型、能量模型等关键组件。LeCun 对强化学习的局限性进行了分析,认为其样本利用率低,过度依赖训练数据,且与人类学习方式存在差异。

怜星夜思:

1、LeCun 坚持不看好强化学习,但强化学习在 AlphaGo 等领域取得了显著成就,如何看待这种矛盾?
2、LeCun 提到的“世界模型”具体指什么?它在实现自主智能中扮演什么角色?
3、除了 LeCun 提到的技术路线,还有哪些其他潜在的路径可以通往人类水平的 AI?

原文内容

本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。
OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监 Andrey Karpathy 此前有关「悔做 RL」的言论引起许多关注,而他在后悔的同时对 Yann LeCun 从一开始就不看好强化学习的态度始终正确的说法引发了 AI 社区对另一件事的兴趣,即「LeCun 的 AI 战略是否出现过摇摆?

目录

01. LeCun 推崇技术的更替了解一下?

Karpathy 为何「悔做 RL」?LeCun 推崇的关键技术有过几轮变化?
02. 让 LeCun 放弃无监督的 Energy-Based SSL 和世界模型有什么关系?
Energy-Based SSL 和世界模型有什么关系?

03. 目标驱动的 AI 如何满足 AMI 的必要条件?

什么是 Objective-Driven AI?Objective-Driven AI 具备什么特殊机制?...

01   LeCun 推崇技术的更替了解一下?

1、OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监 Andrej Karpathy 近期在社交平台上有关「悔做 RL」的评论引起了极大关注,他将自己在 OpenAI 选择强化学习而没有选择自回归语言模型的决策描述为「有史以来最大、最令人困惑的研究生涯错误」。

① Karpathy 所描述的「弯路」在于他早期对语言模型的潜力有所认识,但后来却将研究重心转向了强化学习,没有持续在语言模型这一方向上深耕。

② 在 2015 年前后,当时普遍看法认为 RNN 难以训练,但 Karpathy 在 2015 年的文章《RNN 的不合理有效性》中探讨了循环神经网络(RNN)的潜力,并通过实验展示了 RNN 在文本生成、代码生成等方面的能力。

2、Karpathy 提到 Yann LeCun 当时对强化学习持保留态度,并用「蛋糕」比喻来说明强化学习在整个 AI 领域中的次要地位,而 Karpathy 认为 LeCun 在概念上一直是正确的。

3、相比于 Karpathy 的「悔恨」,知名 AI 学者、图灵奖得主 Yann LeCun 对其所推崇的技术路线十分坚定。在他历年的学术大会和访谈等公开场合分享的观点中,LeCun 始终强调实现人类水平智能不可能是监督学习或纯强化学习,他所推崇的技术也在这条主线上逐步更迭。

① 2016 年,LeCun 强调无监督学习「根据任何可用信息预测过去、现在或未来的任何部分感知」的能力可以填补机器学习不具备预测能力的空白,并将其比喻为一个蛋糕的主体。

② 2019 年,LeCun 用「自监督学习」取代了「无监督学习」,并预测未来的神经网络是拥有大量数据和超大网络的自监督学习。

③ 2019 年末,LeCun 在 SSL 是未来的基础上开始推崇能量模型,即 Energy-Based SSL,而后强调能量模型和世界模型对下一代 AI 的重要性。

④ 2023 年,LeCun 在实现人类水平的 AI 的必要条件清单中增加了 Objective-DrivenAI 架构,与世界模型、能量模型和其他组件共同构成了自主智能(autonomous intelligence)的大框架。


02  让 LeCun 放弃无监督的 Energy-Based SSL 和世界模型有什么关系?

Yann LeCun 在 2016 年的 NIPS(现在的 NeuRIPS)大会上首次提出了「蛋糕比喻」,他将智能(Intelligence)比作一个蛋糕,其中大部分蛋糕(主体)是无监督学习,蛋糕上的糖霜(小部分)是监督学习,蛋糕上的樱桃(极小部分)是强化学习(RL)。 这个比喻在 AI 社区中广为流传,并确立了 LeCun 作为无监督学习的坚定支持者。

1、LeCun 一直在强调,人类会利用预测和推理等能力从可用信息中推断未来,而非通过筛选大量标记数据来理解世界。无监督学习或预测学习可以弥补当前 AI 在推理不同对象之间的关系或预测人类动作等方面的空白。

① 在 2019 年 5 月的 ISSCC 大会中,LeCun 开始重新表述他的观点,给予了自监督学习(SSL)更高的评价,认为这种特殊的无监督学习方式是构建人工智能未来的重要因素,并在后续逐步提出了围绕 SSL 的一系列新概念。

2、相较于对无监督学习/自监督学习的重视,LeCun 在历年的演讲和访谈等场合均表达了对(纯)强化学习方法的不看好。虽然该论调持续吸引了许多来自 RL 社区的反击,但他的态度始终没有改变。

① LeCun 认为强化学习需要过多(Insane Amounts)的实验来学习,存在样本利用率低、过度依赖大量训练数据等局限,且仅完成特定目标后给予奖励,缺少对过程的反馈。

② LeCun 没有否认 RL 的价值,他列举了 RL 当时在各类游戏中取得的成就。然而,他认为在简单的虚拟世界中有效的 RL 无法实时且并行地在真实世界中运行,这与人类学习的方式存在显著差异,不适用大多数真实世界场景,因此建议将 RL 视为最后的选择,即蛋糕上的樱桃。

3、2019 年 5 月在 ISSCC 的演讲中,LeCun 将下阶段 AI 所需的核心技术从无监督学习改为了 SSL,后在在该年 9 月,他 UCLA 的演讲中重点介绍了 Energy-Based SSL,即能量模型(EBM).....

 关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

我认为量子计算的兴起可能会对 AI 发展带来新的契机。量子计算的强大算力可以解决传统计算机无法处理的复杂问题,从而推动 AI 向更高层次发展。

我觉得 LeCun 的观点更多的是强调强化学习的局限性,而不是完全否定它的价值。AlphaGo 确实很厉害,但它的成功也依赖于大量的计算资源和特定场景的规则。在更复杂、更开放的环境中,强化学习的效率和泛化能力还有待提高。

可以这么理解,LeCun 认为强化学习像个偏科生,在特定领域(比如游戏)可以做到顶尖,但缺乏普遍适用性。就像一个围棋冠军,不一定擅长其他事情。而 LeCun 追求的是更通用的 AI,就像一个全面发展的学生,各科均衡。

LeCun 的意思应该不是说强化学习完全没用,而是它不能作为通往通用人工智能的主要途径。就像盖房子,强化学习可以作为其中一种工具,但不能只用它,还需要其他工具,比如地基、框架等等。

我觉得类脑计算是一个很有潜力的方向。通过模拟人脑的结构和功能,可以构建更接近人类智能的 AI。当然,这方面的研究还处于早期阶段,还有很多挑战需要克服。

世界模型可以理解为 AI 对外部世界的抽象表示,它包含了 AI 对世界运行规律的理解和预测能力。就像我们的大脑,可以模拟现实世界,并在做出行动之前进行预演。在自主智能中,世界模型可以帮助 AI 更好地规划和决策。

“世界模型”这个概念其实很有意思,它让我想起了科幻电影里的“虚拟现实”。AI 通过建立世界模型,可以在虚拟环境中进行学习和训练,从而避免在现实世界中犯错。这在自动驾驶等领域非常重要。

关于“世界模型”,可以参考一下 Josh Tenenbaum 的工作,他在这方面有很多研究。简单来说,世界模型就是 AI 对现实世界的理解,就像我们头脑中的地图。有了地图,我们才能更好地导航。

或许可以借鉴生物进化的过程,通过模拟自然选择和基因突变等机制,让 AI 自主进化。这种进化算法可能会带来一些意想不到的突破。