预训练时代的终结？AI未来发展新方向探讨

almosthuman2014 · 2024 年12 月 15 日 11:10

AI预训练或将终结？探索推理优化、世界模型等新方向，能力密度为LLM发展提供新视角。

原文标题：预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650947206&idx=3&sn=49c763c5363fbf516037455a1caecd2c&

冷月清谈：

机器之心Pro会员通讯探讨了AI领域关于预训练未来走向的讨论，焦点在于Scaling Law的有效性及AI发展的下一步。文章指出，虽然Scaling Law在推动AI发展中起到了重要作用，但关于其是否“撞墙”的争议持续不断。Ilya Sutskever 等人认为，由于数据枯竭，传统的预训练方法可能走向终结，AI需要探索新的发展路径，例如更关注推理阶段的优化、更高维度的数据（如世界模型）以及新的学习算法等。文章还介绍了清华大学提出的“能力密度”概念，它提供了一个新的视角来评估不同规模LLM的训练质量，并预测未来主流终端设备将能够运行更高能力的模型。

怜星夜思：

1、如果预训练真的走到尽头，除了文章提到的方向，还有哪些值得关注的AI发展方向？
2、文章提到了“能力密度”的概念，如何更有效地提高模型的能力密度？
3、世界模型在自动驾驶中的应用前景如何？

原文内容

机器之心PRO · 会员通讯 Week 50

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

预训练数据还能继续 Scale 多少? AI的下一步发展有哪些论调？哪些工作在推理阶段给 LLM 打补丁？哪些工作在用更高维度的数据做 WM？哪些探索方向不受「撞墙争议」的影响？能力密度又带来了什么新视角？...

2. 世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

为什么说世界模型是通往 L4 级别的关键？与端到端大模型相比，区别是什么？解决什么难题？在实际落地应用中，世界模型在智驾系统中的哪些部分起具体作用？有哪些车企在方案中引入了世界模型？思路有何异同？...

3. 麦肯锡报告预测未来可能重塑全球经济的 18 个领域

麦肯锡的最新报告传递了哪些重要信息？重塑全球经济的 18 个领域有哪些？人工智能技术的飞速发展对于哪些行业的发展起到了关键作用？...

...本期完整版通讯含 3 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递，其中技术方面 8 项，国内方面 5 项，国外方面 14 项。

本期通讯总计 25018 字，可免费试读至 9%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 预训练将结束？AI 的下一步发展有哪些论调？Scaling Law 撞墙与否还重要吗？

引言：本周五，Ilya Sutskever在NeurIPS炸裂宣判：「预训练将结束，数据压榨到头了」。关于 Scaling Law 是否撞墙的争议在近期持续发生，不时有人给出 Scaling Law 将会撞墙的佐证，也有许多工作证明了 Scaling Law 的潜力尚未被充分挖掘，这一争议带来的是业界对 AI 下一步发展路线的众说纷纭。

「撞墙」争议下，AI 的下一步发展有哪些论调？

Scaling Law 在 2024 年里又一次性感，一度被视为实现 AGI 的「圣经」。也是因此，当有关 Scaling Law 撞墙的消息传出后引发了大量消极的论调。回顾 2022 年，深度学习领域也曾面临类似的“撞墙”质疑，但事实证明，这些担忧并未成为现实。语言模型的 Scaling Law 允许研究者预测模型性能随参数、数据和计算资源变化的趋势。尽管其在推动 AI 发展中扮演了重要角色，但构建更强大的 AI 系统并非只有一条路径。

1、2024 年里，AI 领域中有关 Scaling Law 是否到头的争议反复引起讨论。其话题冲突的核心在于，大模型的性能提升是否还能继续靠无限堆叠数据和参数规模从而大力出奇迹。

① 6 月，Gary Marcus 的「Is scaling all you need？」就 Scaling Law 收益递减的话题引发了大量讨论。Marcus 认为仅靠 Scaling 已经无法带来显著的性能提升，同期有声音认为 LLM 领域已经进入回报递减的时期，未来的发展需要新的方法和思路。（详见 Pro 会员通讯 2024 年 Week 36 期）

② 11 月，The Information 的报道《随着 GPT 提升减速，OpenAI 改变策略》，以及许多大型基础实验室声称均遇到预训练的瓶颈的声音又一次将 Scaling Law 撞墙的争议变成热议话题。

2、认为 Scaling Law 撞墙的佐证不断翻新，而反驳的观点也随着话题的热度不断涌现。以 OpenAI CEO Sam Altman 为代表的反驳观点认为，Scaling Law 的潜力尚未穷尽，而 OpenAI 的 o 系列和 GPT 系列均是 Scaling 仍然有效的范例。[10]

3、SSI 创始人、前 OpenAI 首席科学家 Ilya Sutskever 曾在访谈中表达「Scaling the right thing matters more now than ever。」近期在NeurIPS 2024 的演讲中，他进一步补充了「现有的预训练方法将会结束」的观点。[18]

① Sutskever 在演讲强调了数据枯竭的担忧，我们只有一个互联网，尽管现有数据仍能推动人工智能的发展，但可用的新数据已经耗尽，需要寻找新的方法来进一步提升AI的能力。

② 由于数据资源的有限性，Sutskever 认为这一趋势最终将迫使行业改变当前的模型训练方式。他预测下一代模型将会“以真正的方式表现出自主性”，并且具备推理能力。

③ Sutskever 提出，AI可能会超越现有的预训练方法，发现全新的扩展路径。这可能涉及到新的学习算法、更高效的数据处理技术，或者是能够从更少的数据中提取更多信息的方法。

4、LLM 的 Scaling Law 揭示了性能与其参数和数据规模之间的关系，但并非唯一视角。在 Scaling Law 撞墙与否的争议之外，仍有许多工作从不同的方向探求解锁下一代 AI 的路径。

5、对于评估不同规模 LLM 训练质量的方法上，清华大学刘知远教授团队近期提出了 Densing Law（密度定律），从 Scaling Law 之外的维度对 LLM 能力进行推演，提供指导性的规律发现。[11]

① 该工作针对近几年 LLM 工作中看似矛盾的「为了有效性而扩展 LLMs 的规模，为了效率而缩小 LLMs 的规模」路径，提出了 Capability Density（能力密度）度量指标，用于量化评估不同规模 LLMs 的质量。

② Capability Density 被定义为 LLM「有效参数量」于实际参数量的比值。「有效参数量」指参考模型达到与目标模型相当性能所需的最小参数数量。

③ 该工作用 Capability Density 评估了 29 个头部开源 LLM，并基于分析结果提出了 Density Law，即，LLM 的最大密度随时间呈指数增长，大约每 3.3 个月（约 100 天）翻一倍。

④ 结合 Densing Law 与摩尔定律，研究者指出，伴随 LLMs 密度+芯片计算能力各自随时间的增长，两者的交汇意味着主流终端如 PC、手机将能运行更高能力密度的模型，推动端侧智能在消费市场普及。

⑤ 结合 Densing Law 与 Scaling Law，研究者指出每个新模型的高性价比「有效期」不断缩短。开发者必须考虑模型密度的增长趋势，并采用更有效和通用的训练技术来提高模型密度。

6、从「Scaling What」更重要的视角出发，近期的许多工作探索新的 Scaling 目标。

① 以 OpenAI o1 模型的发布为契机，有一种说法认为 Scaling 的范式正在从预训练转移到推理阶段，其相关工作涉及「测试时计算（Test-Time Compute）」和「测试时训练（Test-Time Training）」等。

② 也有工作尝试从预训练数据入手，如哈佛等高校研究者尝试设计的「精度感知」的 Scaling Law，以及 UCL 和 Cohere 对预训练数据中「程序性知识」的研究。

③ 还有一类工作尝试用更高维度的数据和知识入手，如空间智能、世界模型和具身智能领域的相关工作。

预训练数据仍会是「The Right Thing to Scale」吗？

Ember34n · 2024 年12 月 15 日 17:36

从另一个角度来看，数据质量对能力密度的影响也不容忽视。更高质量的训练数据可以减少模型学习噪声和偏差，从而提升能力密度。所以，数据清洗和增强也是提升能力密度的关键。Garbage in, garbage out，这句老话在AI领域依然适用。

CloudySky415 · 2024 年12 月 16 日 16:30

我比较关注AI的可解释性。现在的深度学习模型大多是黑盒子，我们很难理解它们是如何做出决策的。如果AI要被广泛应用，提高其透明度和可解释性非常重要，特别是对一些关键领域，比如医疗。

SparklingRiver075 · 2024 年12 月 19 日 16:44

除了模型架构，优化训练方法也至关重要。更高效的训练方法可以帮助模型更好地学习数据中的知识，从而提升能力密度。比如，可以尝试一些新的优化器或者学习率调整策略。

Phantom95l · 2024 年12 月 20 日 06:29

世界模型在处理corner case方面可能会有优势。传统的基于规则的系统在处理一些罕见的情况时可能会束手无策，而世界模型可以通过学习大量的驾驶数据来更好地应对这些情况。毕竟现实世界比规则复杂得多。

SilverWolf359 · 2024 年12 月 20 日 16:02

我对世界模型的实时性有点担忧。构建和维护一个足够精细的世界模型需要大量的计算资源，这可能会影响自动驾驶系统的实时性能。这方面的挑战也是需要关注的点。

HiddenPanda648 · 2024 年12 月 20 日 19:15

除了量子计算，我觉得关注AI的伦理和社会影响也至关重要。随着AI越来越强大，我们需要思考如何确保它被负责任地使用，避免潜在的风险和危害。毕竟技术是为人类服务的嘛。

RadiantButterfly764 · 2024 年12 月 21 日 06:46

关于提高模型能力密度，我认为可以从改进模型架构入手。更高效的模型架构可以减少冗余参数，从而提升能力密度。可以参考一些轻量级网络的设计思路。像谷歌提出的MobileNet，就在保持较高准确率的同时，显著减少了模型参数量，在移动端应用方面有很大优势。

EmeraldDog210 · 2024 年12 月 21 日 22:09

我觉得量子计算与AI的结合可能会是一个重要的方向。虽然量子计算目前还在发展初期，但它有潜力解决经典计算机无法处理的复杂问题，这可能为AI带来突破性的进展。