DeepSeek低成本高性能模型引发行业震动,OpenAI、LeCun 等纷纷评论

DeepSeek低成本高性能模型引发热议,OpenAI承认其部分思路的独立发现,LeCun强调推理成本的重要性。

原文标题:OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

原文作者:机器之心

冷月清谈:

DeepSeek 最新发布的 DeepSeek-V3 和 DeepSeek-R1 模型以低成本实现了可媲美 OpenAI 同类模型的性能,引发了业界对 AI 硬件需求和技术创新方向的热议。
一些人认为 DeepSeek 在硬件资源有限的情况下,通过技术创新降低了对算力的依赖,探索出一条不同于 OpenAI 堆算力的路径。OpenAI 首席研究官 Mark Chen 承认 DeepSeek 独立发现了一些 OpenAI 也在使用的核心理念,但并不认为 OpenAI 在算力上的投入不合理,强调 OpenAI 拥有预训练和推理两个优化维度,并计划在两个维度上都加大算力投入。他还指出,降低成本和提升能力逐渐解耦,并对 OpenAI 的研究路线图充满信心。
关于 DeepSeek-V3 训练成本仅为 558 万美元的说法,实际并未包含前期研究和实验成本。Yann LeCun 认为,维持 AI 服务稳定运行的成本才是大头,并随着 AI 能力增强而增加,关键在于用户是否愿意为增强的功能付费。DeepSeek 降低推理成本的努力或许更具意义。面对未来推理需求的激增,OpenAI 和 Meta 等公司都在积极投入基础设施建设。

怜星夜思:

1、DeepSeek 的技术创新具体有哪些?除了减少算力需求外,还有哪些方面值得关注?
2、Mark Chen 提到降低成本和提升能力逐渐解耦,这具体指的是什么?对未来的模型发展有什么影响?
3、LeCun 强调推理成本的重要性,你认为未来如何降低推理成本?除了技术手段外,还有哪些方面可以考虑?

原文内容

机器之心报道

编辑:张倩
成本打下来了,需求更多才对?


春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆(参见《》)。


简单来说,DeepSeek 最近发布的两个模型 —— DeepSeek-V3 和 DeepSeek-R1 以很低的成本获得了比肩 OpenAI 同类模型的性能。这引发了市场对 AI 硬件需求的担忧,投资者担心未来对英伟达高端芯片的需求可能会减少。



与此同时,关于 DeepSeek 技术创新的讨论也非常多。很多人认为,DeepSeek 在硬件受限的条件下被逼走出了一条不同于 OpenAI 等狂堆算力的道路,用一系列技术创新来减少模型对算力的需求,同时获得性能提升。


这些成就得到了包括 Sam Altman 在内的 AI 领军人物的肯定。




随后,OpenAI 首席研究官 Mark Chen 也发了帖。他表示,DeepSeek 确实独立发现了一些 OpenAI o1 也在用的核心理念,不过,这并不代表 OpenAI 在算力上的高投入是不合理的。


帖子原文如下:   


恭喜 Deepseek 开发出了 o1 级别的推理模型!他们的研究论文表明,他们独立发现了一些我们在通往 o1 的路上发现的核心理念。


不过,我认为外界的反应有些过度夸大,特别是在成本方面的说法。拥有两个范式(预训练和推理)意味着我们可以在两个维度而不是一个维度(低成本)上优化某项能力。


但这也意味着我们有两个可以扩展的维度,我们打算在这两个维度上都积极投入算力!


随着蒸馏研究的日益成熟,我们也发现降低成本和提升能力愈发解耦。能够以更低成本(特别是在更高延迟的情况下)提供服务,并不意味着就能产生更好的能力。


我们将继续提升以更低成本提供模型服务的能力,但我们对我们的研究路线图保持乐观,并将继续专注于执行它。我们很高兴能在本季度和今年为大家带来更好的模型!


短短几段话,Mark Chen 表达了好几层观点,我们让 DeepSeek-R1 来解读一下每段话的言外之意:  



总之,和 Sam Altman 一样,Mark Chen 的发言也是在重塑外界对 OpenAI 的信心,并预告今年会带来更好的模型。


此外,OpenAI研究科学家Noam Brown也在努力弱化外界对OpenAI和DeepSeek的对比,但大家似乎并不买单。





另外,Mark Chen 提到的「外界的反应有些过度夸大,特别是在成本方面的说法」这一点最近也被很多人讨论,尤其是「DeepSeek-v3 训练成本仅为 558 万美元」这一说法。其实,DeepSeek-v3 的技术报告原文是这么写的:「上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本」。



图灵奖得主、Meta AI 首席科学家 Yann LeCun 也认为市场对于 DeepSeek 的成本反应并不合理。不过,他是从推理的角度来看的。他指出,人们常常以为巨额投资主要用于训练更强大的模型,但实际上大部分钱都花在了让这些 AI 服务能够稳定地服务数十亿用户身上。而且随着 AI 能力的增强,维持服务运行的成本会变得更高,关键是要看用户是否愿意为这些增强的功能付费。 



不少网友对 LeCun 的看法表示赞同,认为训练、推理成本更低的 AI 意味着这项技术能更快普及,从而创造更大的市场。




从这个角度来看,DeepSeek 在降低推理成本方面的努力似乎比降低训练成本的贡献更值得被关注。




针对可能即将到来的推理需求的激增,OpenAI、Meta 等都在做相应准备,比如旨在为 OpenAI 建设强大基础设施的「星际之门」项目(计划投资 5000 亿美元,但资金是否到位一直存疑)、Meta 新一年 600 亿美元的 AI 投资……


看来,2025 年,AI 市场的竞争依然激烈,DeepSeek 将在新一年走出多远还有待观察。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

关于DeepSeek的技术创新,报道里没细说,我挺好奇他们是怎么做到低成本高性能的。除了算力需求,我觉得数据处理和模型架构的优化也很重要,这些方面可能也有创新。

DeepSeek 的论文我看了,里面提到了一些并行训练和优化策略,感觉挺厉害的。但具体细节还需要深入研究。除了减少算力,我觉得模型的泛化能力和鲁棒性也是值得关注的点。

我觉得可以考虑边缘计算,把一部分推理任务放到边缘设备上进行,这样可以减少云端服务器的负载,降低成本。当然,这需要在性能和成本之间找到一个平衡点。

未来降低推理成本,除了优化算法和硬件,还可以考虑共享算力资源,比如建立一个推理平台,让大家共享 GPU 资源,这样可以提高资源利用率,降低成本。

我觉得可以关注下他们的模型压缩和量化技术,这方面做得好的话,对部署到实际应用中很有帮助,毕竟不是每个人都能用得起高端硬件。

我理解的解耦,是指未来模型的性能提升可能更多依赖于算法和架构的创新,而不是单纯的堆数据和算力。这可能会促使研究者探索更多新的方向,而不是仅仅依赖于现有的方法。

针对LeCun提到的推理成本问题,我觉得除了技术手段,商业模式的创新也很重要。比如可以按需付费,或者提供不同性能级别的服务,让用户根据自己的需求选择。

我觉得 Mark Chen 的意思是,未来可能会出现更多像 DeepSeek 这样主打性价比的模型,而不是一味追求极致性能。这对于资源有限的企业或个人开发者来说是个好消息,可以根据自己的需求选择合适的模型。

关于“降低成本和提升能力逐渐解耦”这个问题,我的理解是,以前模型性能提升往往伴随着成本的增加,但现在可以通过技术手段在降低成本的同时提升性能,或者在不增加成本的情况下提升性能。这将改变以往单纯依靠堆算力的模式,技术创新将扮演更重要的角色。