超越o1:探索AGI的无限可能

o1模型引领推理层扩展,但并非AGI的全部。本文探讨AGI的更多可能,介绍持续学习和“苏格拉底式学习”新思路。

原文标题:通过无限的后训练『补丁』,就能实现AGI吗?

原文作者:机器之心

冷月清谈:

OpenAI的o1模型通过在推理层扩展计算规模,提升了大模型的推理能力,但这是否意味着通往AGI的正确路径?本文探讨了o1模型的局限性,并介绍了两种可能实现更强AI的思路。

虽然o1模型在复杂推理方面有所进步,但其本质仍然是通过“测试时训练”技术,给模型打上“补丁”,使其记住正确的推理逻辑而非真正理解。这种方法依赖于大量的计算资源和时间成本,其可扩展性也受到质疑。

除了主流的通过扩展语言模型规模来实现AGI的路线外,一些学者提出了不同的思路。例如,阿尔伯塔大学的研究者提出了“stream-x”算法,解决了流式深度强化学习中的“流式障碍”问题,为持续学习和终身学习提供了可能。该算法无需经验回放、目标网络或批量更新,即可实现高效学习,在某些复杂环境中甚至超越了批量强化学习算法。

Google DeepMind提出了“苏格拉底式学习”方法,通过递归自我完善,突破了传统训练数据的局限。这种方法使AI能够自主学习和改进,被认为是实现自我完善AI的重要途径。

怜星夜思:

1、如果无限的计算资源和数据都不足以让o1达到AGI,那么我们还需要在哪些方面进行突破?
2、“stream-x”算法的出现是否意味着持续学习将成为未来AI发展的主流方向?
3、“苏格拉底式学习”如何实现递归自我完善?这种方法的潜在风险是什么?

原文内容

本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。

o1 模型的推出将研究方向从预训练带向了推理层,尽管给大模型「打补丁」的方式取得了一定效果,但无限地通过扩展测试时间计算,就能实现通用人工智能吗?规模能扩展到什么程度?计算资源、时间成本问题如何解决?无限的知识和数据是否意味着大模型具有真实的泛化能力?

强化学习之父 Richard Sutton 这样形容当下的业内研究方向,「就像是在路灯下找钥匙的问题,我丢了钥匙会在路灯下找,因为那里能看见,尽管那可能不是钥匙所在的地方。」

分别来自阿尔伯塔大学、Google DeepMind的两项研究工作跳出了「在路灯下找钥匙」的视野范围,指出了实现更强 AI 的两个可能方向。


目录

01. o1 还不能称为 AGI:推理计算之外,实现 AGI 还有哪些不一样的思路?

o1 离 AGI 还有多远?在推理阶段给大模型「打补丁」之外,实现 AGI 还有哪些思路?
02. 阿尔伯塔的 stream-x 算法:解决「流式障碍」,为实现持续学习提供可能
流式深度 RL 方法有哪些优势?对 Richard Sutton 推崇的持续学习有何影响?
03. Google DeepMind 的「苏格拉底学习」:扩展实现 AI 自主、自我完善能力的重要途经
苏格拉底式的学习方法可能是实现自我完善 AI 的重要途径?存在哪些挑战?
01  o1 还不能称为 AGI:推理计算之外,实现 AGI 还有哪些不一样的思路?
1、近期,OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层。随后国内多家大厂、AI 创企也陆续发布了类 o1 推理模型,如 R1-Lite(DeepSeek)、k0-math(月之暗面)、QwQ(阿里)等。AI 业内的关注点逐渐转向推理层。
2、 尽管 o1 等推理模型在复杂推理等方面的能力显著提升,但 o1 带来的范式转变仅是从记住答案到记住正确的推理逻辑,从而输出正确结论。「测试时训练」技术像是一块「补丁」,通过给大模型一个「临时记忆」,临时调整反应,让大模型能够回答问题。尽管大模型能够输出正确的答案,但并不意味着其能真正理解或具有推理能力。
3、除了通过语言大模型方向来加强深度学习来实现 AGI 的主流路线之外,AI 业内的大佬们提出了一些不同的思路,如 Yann Lecun 提出的世界模型路线,Richard Sutton 提出的持续学习等。
4、近期,有两项新的研究工作跳出了「如何更好地让语言模型在 Pre-training 阶段学习知识、在 Post-training/Inference 阶段提高表现」的视野范围,指出了实现更强 AI 的两个可能思路。
① 受到 Richard Sutton 的高度评价的阿尔伯塔大学的一项研究工作,提出了一个新的深度强化学习算法「stream-x」,解决了流式深度强化学习中的流式障碍问题,为持续学习和终身学习提供了支撑;
② Google DeepMind 近期的一项工作提出了一种创新性的 AI 递归自我完善的新方法,即「苏格拉底式学习」,突破了传统训练数据的局限,是实现自主且自我完善的人工智能的重要途径。

02  阿尔伯塔的 stream-x 算法:解决「流式障碍」,为实现持续学习提供可能
1、阿尔伯塔大学近期的一项新工作,得到了强化学习之父 Richard Sutton 的推荐。该工作提出了一个新的深度强化学习(Deep Reinforcement Learning,DRL)算法「stream-x」,解决了流式深度强化学习中的流式障碍问题。[1]
① 「stream-x」算法能够在没有经验回放(Experience Replay)、目标网络(Target Networks)或批量更新(Batch Updates)的情况下进行有效的学习。
② 研究者发现,「stream AC」算法能够在没有存储和重用样本的情况下,通过实时处理数据流,实现与 PPO 算法相近的学习效果和任务性能,甚至在某些复杂环境中超越了批量强化学习算法的性能。
2、相比于目前主流的批量学习,流式学习有很大的发展空间,适应于计算资源受限和需要实时决策的环境。特别是在 TinyML 领域,流式强化学习的优势更大......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

stream-x算法的无经验回放、无目标网络、无批量更新的特点,让它在资源受限的环境下很有优势,比如物联网设备。这或许会推动TinyML领域的发展。

持续学习更符合人类的学习方式,所以很有潜力。stream-x算法的出现解决了流式学习中的一些关键问题,可能会加速持续学习的发展,但要成为主流方向,还需要更多研究和应用。

“苏格拉底式学习”的关键在于让AI自己生成问题,并通过解决这些问题来提升自身的能力。有点像我们学习时,不断地问自己问题并寻找答案。至于风险,我觉得可能会出现AI的价值观与人类不一致的情况,导致AI做出一些我们不希望看到的事情。

关于“苏格拉底式学习”如何实现递归自我完善,文中提到的“自主且自我完善的人工智能的重要途径”说法挺吸引人的,但具体细节还需要更多资料佐证。至于风险嘛,就像科幻电影里演的那样,AI自我进化到最后可能会失控,细思极恐。

除了算法上的突破,我觉得还需要在硬件方面进行改进。现在的AI模型需要大量的计算资源和能源消耗,这限制了其发展。我们需要开发更加高效节能的AI芯片。

个人认为持续学习肯定是未来的一个重要方向,但现在谈主流还为时尚早。目前深度学习仍然是主流,持续学习需要在更多场景下证明其有效性。

引用一下强化学习之父Richard Sutton的话,“就像是在路灯下找钥匙的问题”。我们现在可能过于关注在现有的深度学习框架下进行优化,而忽略了其他可能更有效的途径,例如类脑计算、量子计算等。

我觉得o1这种“补丁”式的方法治标不治本,真正的突破可能在于理解人类的认知过程,并将这种认知过程融入到AI模型中。我们需要研究如何让AI像人类一样进行抽象思考、推理和创造。

递归自我完善的核心是让AI自己评估学习效果,并根据评估结果调整学习策略。这种方法可以减少对人工干预的依赖,但同时也带来了可控性方面的挑战。如果AI的自我评估机制出现偏差,可能会导致AI朝着不可预知的方向发展。