GPT-5研发遇阻:高昂成本与数据瓶颈

GPT-5研发受阻,面临5亿美元一轮的训练成本和数据瓶颈难题,OpenAI正探索新的数据获取方式。

原文标题:GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”

原文作者:AI前线

冷月清谈:

OpenAI 的 GPT-5 项目(代号 Orion)研发已超过 18 个月,但进展缓慢。该项目面临着巨大的成本压力,每次训练耗资近 5 亿美元,且至少进行了两轮训练,但结果仍未达预期。此外,全球数据量的不足也限制了模型性能的提升。

为解决数据瓶颈,OpenAI 采取了多种措施,包括雇佣工程师和数学家编写代码和解决数学问题,并解释其思考过程,以此作为训练数据。此外,他们还与各领域专家合作,获取更专业的知识。

尽管 OpenAI 尝试使用 AI 生成数据来加速训练,但这种方法存在一定风险。同时,来自竞争对手的压力、内部的人才流失和团队间的资源竞争也给 GPT-5 的研发带来了更多挑战。

怜星夜思:

1、OpenAI 花费巨资雇人造数据,这种方式真的能有效提高模型的智能水平吗?人工数据和真实世界数据相比,会不会存在一些局限性?
2、文章提到全球数据量不足以支持 GPT-5 达到理想的智能水平。除了扩大数据量,还有哪些途径可以提升大模型的性能?
3、OpenAI 内部的动荡和竞争对手的挖角对 GPT-5 的研发会产生哪些影响?这是否会影响 OpenAI 在 AI 领域的地位?

原文内容

整理 | 燕珊

研发超过 18 个月却还未见影子的 GPT-5(代号 Orion)项目又有了新爆料。

《华尔街日报》最新报道称,有接近该项目的人士表示,尽管目前 Orion 的表现优于 OpenAI 当前的模型,但当前的进步并不足以证明继续运转新模型所需的巨大成本是合理的。

据知情人士透露,GPT-5 至少进行过两轮训练,每次训练都暴露出新的问题,达不到研究人员的预期。而且,每轮训练耗时数月,仅一轮计算成本就接近 5 亿美元。

总而言之,这个项目是否能成功、何时能成功,目前尚不明确。它还面临着一个更严峻的问题:全球的数据量不足以让它达到理想的智能水平。

训练之路困难重重

自 GPT-4 于 2023 年 3 月发布后,OpenAI 随即投入到 GPT-5 的开发。同年 11 月,Altman 就曾表示不会在 2024 年发布任何名为 GPT-5 的东西。

一般来说,AI 模型的能力会随着其吸收的数据量增加而增强。在训练过程中,模型被灌入数万亿个 tokens,训练可能持续好几个月,并且依赖于成千上万块昂贵且稀缺的计算芯片。Altman 曾透露,单是训练 GPT-4 的成本就超过了 1 亿美元,而未来的 AI 模型训练费用预计将突破 10 亿美元。若训练失败,其后果将如同火箭发射失败一样,造成巨大的损失。

为了减少失败的风险,OpenAI 通常会先进行小规模的试运行,以验证模型设计和训练的可行性。通过这种方式,研究人员可以在正式的大规模训练之前发现并修正潜在问题。

然而,GPT-5 的开发从一开始便遇到了挑战。2023 年中,OpenAI 启动了一个名为“Arrakis”的实验性训练,旨在测试 GPT-5 的新设计。遗憾的是,训练进展缓慢,显示出如果进行更大规模的训练,将会耗费极长时间,并且成本极其高昂。实验结果还表明,GPT-5 的开发比原先预期的要更加复杂和困难。

因此,OpenAI 的研究团队决定对 Orion 进行一系列技术调整,并进一步意识到,现有的公开互联网数据已经无法满足模型的需求。为了提升 GPT-5 的性能,他们迫切需要更多种类和更高质量的数据。

“从零开始创造数据”

据报道,为了应对数据不足的问题,OpenAI 决定“从零开始创造数据”。具体来说,OpenAI 正在雇人编写新的软件代码或解决数学问题,让 Orion 从这些任务中学习。这些人包括软件工程师和数学家,并且还会向 Orion 解释他们的工作过程。

许多研究人员认为,代码作为软件的语言,能够帮助大模型解决它们没有见过的问题,从而提升其解决复杂问题的能力。

Turing 公司首席执行官兼联合创始人 Jonathan Siddharth 表示:“我们是在将人类智慧从人脑转移到机器脑。”

在 AI 的训练过程中,Turing 的一位高管解释说,软件工程师可能会被要求编写一个程序来高效地解决复杂的逻辑问题;而数学家则可能需要计算由一百万个篮球构成的金字塔的最大高度。这些任务的关键不只是得到最终答案,更重要的是 得出答案的思考过程,都会被纳入 AI 的训练材料中

此外,OpenAI 还与理论物理学等领域的专家合作,让他们解释如何解决自己领域中的棘手问题。这些内容也有助于提升 Orion 的智能水平。

但不管怎么说,雇人从头构建数据这个事情,怎么看也不会是个高效的过程。GPT-4 的训练数据约为 13 万亿个 token。如果有 1000 个人每天写 5000 个字,生产 10 亿个 token 也得花费几个月的时间。

为了加速训练,OpenAI 也有用所谓的“合成数据”,即由 AI 生成的数据,来帮助训练 Orion。然而有研究表明,AI 生成数据再用于 AI 训练的反馈循环,有时会导致模型出错或生成毫无意义的答案。

对此,知情人士称,OpenAI 的科学家认为,通过使用 o1 生成的数据可以避免这些问题。

内外夹击下前行

OpenAI 面临的挑战不仅仅是技术层面的,还有内部的动荡和竞争对手几乎不间断的挖角。其次,来自技术和资金的双重压力也在明显增加。每一次的训练耗资高达 5 亿美元,那么最后训练成本就很可能超过 10 亿美元。与此同时,竞争对手的崛起对 OpenAI 构成了更大压力。Anthropic、谷歌等公司纷纷推出新一代模型,试图赶超 OpenAI。

人才流失和内部分歧进一步拖慢了开发进度。去年,OpenAI 董事会突然解雇了 Altman,导致一些研究人员开始质疑公司是否能够继续运作。然而,Altman 很快被重新任命为 CEO,并着手对公司的治理结构进行改革。

今年以来,超过 20 位关键高管、研究人员和长期员工离开了 OpenAI,其中包括联合创始人兼首席科学家 Ilya Sutskever 和技术负责人 Mira Murati。就在前不久,广受尊敬的研究人员 Alec Radford 也宣布离职,他曾在 OpenAI 工作约八年,并主笔了多篇重要论文。

随着 Orion 的进展停滞,OpenAI 开始开发其他项目和应用,包括简化版的 GPT-4 和可以生成 AI 视频的 Sora 产品。但报道也提到,这导致了 不同团队之间争夺有限计算资源的局面,特别是在新产品开发团队和 Orion 研究团队之间,发生了激烈的竞争。

GPT-5 的困境或许揭示了一个更大的行业命题:AI 是否已经接近发展的“瓶颈期”?业内人士指出,依靠海量数据和更大模型的策略正逐渐失效。正如前 OpenAI 科学家苏茨克维尔日前在公开场合所说,“我们只有一个互联网”,数据的增长正在放缓,这一推动 AI 飞跃的“化石燃料”正逐渐枯竭

对于 GPT-5 的未来,Altman 始终未给出明确的时间表,目前我们仍然无法确定 OpenAI 何时或者是否会推出一个值得称为 GPT-5 的模型。

参考链接:

https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693

活动推荐

极客时间 · AI 指南」是一个集成的、经过筛选、实时更新、专为程序员打造的高质量 AI 工具搜索平台。它汇聚了最前沿的 15 大 AI 类别、400+ AI 工具,前新的技术和编程资源,为你提供一站式的技术解决方案

从基础编程工具到效率工具,从代码优化到算法设计,从故障排查到项目管理,「AI 指南导航栏」涵盖了程序员日常工作的各个方面。无论你是新手小白还是资深大牛,可以快速搜索到需要的内容。

 会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文





图片
你也「在看」吗?👇

还可以考虑优化硬件和计算资源,例如使用更强大的GPU或分布式计算框架,以加快训练速度和提高模型容量。

针对“文章提到全球数据量不足以支持 GPT-5 达到理想的智能水平。除了扩大数据量,还有哪些途径可以提升大模型的性能?”这个问题,我觉得可以从模型结构、算法和训练方法等方面入手。例如,改进模型架构以提高效率,开发更先进的优化算法,以及探索更有效的训练策略,如强化学习或自监督学习等。

我觉得 OpenAI 的内斗可能会使其错失一些发展良机,给其他公司创造了弯道超车的机会。AI 领域竞争激烈,稍有不慎就可能被后来者居上。

对于“OpenAI 内部的动荡和竞争对手的挖角对 GPT-5 的研发会产生哪些影响?这是否会影响 OpenAI 在 AI 领域的地位?”这个问题,我认为人才流失和内部动荡必然会对 GPT-5 的研发进度和质量产生负面影响。关键人员的离开可能会导致项目延误,甚至技术路线的改变。这无疑会给竞争对手提供追赶的机会,从而削弱 OpenAI 在 AI 领域的领先地位。

我觉得人工数据就像给模型吃营养餐,营养是够的,但是否全面均衡就不好说了。真实世界的数据更像是粗粮,虽然看起来杂乱,但是包含了各种微量元素,对模型的成长可能更有好处。两者结合也许是最佳方案。

个人认为,人工数据最大的问题在于成本太高,而且效率有限。如果未来能找到一种更有效、更低成本的数据生成方式,比如改进合成数据技术,或许能更好地解决数据瓶颈问题。

虽然 OpenAI 面临挑战,但它仍然拥有强大的技术积累和品牌影响力。只要能够妥善处理内部问题,并持续进行技术创新,OpenAI 仍然有很大的机会保持其在 AI 领域的领先地位。

除了改进算法和模型结构外,我觉得还可以尝试结合多种模态的数据进行训练,例如文本、图像、音频、视频等,这样可以使模型学习到更丰富的特征表示,从而提升性能。

关于“OpenAI 花费巨资雇人造数据,这种方式真的能有效提高模型的智能水平吗?”这个问题,我的看法是人工数据确实可以在一定程度上提高模型的性能,特别是针对一些特定领域或任务。它可以弥补真实世界数据不足的缺陷,并提供更精确、更干净的数据。但是,人工数据也存在局限性,它可能缺乏真实世界的复杂性和多样性,导致模型在实际应用中泛化能力不足。所以,最终模型效果如何,还需要更多实际应用来检验。