DeepSeek R1 模型迅速登陆各大平台,引发 AI 领域震动

DeepSeek R1 模型登陆 Azure、AWS 等平台,低成本高性能引发行业震动,争议与机遇并存。

原文标题:进击的DeepSeek,一夜之间登陆Microsoft Azure、Cursor、Amazon Bedrock

原文作者:机器之心

冷月清谈:

春节期间,DeepSeek R1 模型的发布引发了 AI 界的巨大震荡。该模型迅速登陆 Microsoft Azure、Cursor、Amazon Bedrock 等平台,其低成本和高性能颠覆了人们对 AI 的认知。

DeepSeek R1 的快速迭代和低成本高效的特性引发了业界对 AI 竞争格局的重新思考,它让人们看到了在不依赖巨额资金的情况下,仍然可以通过技术创新在 AI 领域取得突破。

然而,围绕 DeepSeek 的争议也随之而来,OpenAI 和微软正在调查 DeepSeek 是否非法使用了 OpenAI 的知识产权,美国政府也在调查 DeepSeek 是否违反了芯片禁令。

知名分析师 Ben Thompson 指出,DeepSeek 在受限的硬件条件下通过大量的优化实现了令人瞩目的性能,这为其他公司提供了新的发展思路。他认为,模型商品化和更便宜的推理成本对大型科技公司来说非常有利,尤其是对亚马逊、苹果和 Meta,而谷歌则可能面临更大的挑战。

怜星夜思:

1、DeepSeek R1 的出现,对普通用户来说有什么实际影响?
2、DeepSeek 如何在硬件受限的情况下实现高性能?除了文中提到的优化策略,还有什么其他可能性?
3、如果 DeepSeek 真的绕过了芯片禁令,这会对国际关系和科技竞争带来什么影响?

原文内容

机器之心报道

机器之心编辑部


春节假期未过半,DeepSeek 掀起的巨浪还在影响着所有和人工智能有关的领域。


今天一觉醒来, DeepSeek R1 模型已经正式加入 Azure AI Foundry 和 GitHub 模型目录,开发人员可以快速地进行实验、迭代,并将这款热门模型集成到他们的工作流程中。


图片


这让大家感慨:没有永恒的竞争对手,也没有永恒的合作伙伴,每家公司都应该快速拥抱变化。


毕竟昨天的微软还在说:DeepSeek 非法窃取了 OpenAI 的知识产权。而今天的微软:DeepSeek 现已在我们的 AI 平台上推出,欢迎大家尝试。



微软公司人工智能平台副总裁 Asha Sharma 表示,DeepSeek R1 经过了严格的红队和安全评估,包括模型行为的自动评估和广泛的安全审查,以降低潜在风险。


与此同时,DeepSeek 的 R1 和 V3 均已登陆 AI 代码编辑器 Cursor。



亚马逊云科技也宣布:企业和开发者可以在 Amazon Bedrock 和 Amazon SageMaker AI 中部署 DeepSeek-R1 模型,此外还可以使用 AWS Trainium 和 AWS Inferentia 通过 Amazon Elastic Compute Cloud (Amazon EC2) 或 Amazon SageMaker AI 以经济高效的方式部署 DeepSeek-R1-Distill 模型。


亚马逊首席执行官 Andy Jassy。图源:https://x.com/ajassy/status/1885120938813120549


距离 DeepSeek R1 引爆 AI 圈只不过十天,这些科技公司的反应速度再次证明了 DeepSeek 给海内外带来的震撼程度。


它甚至让 OpenAI 的高层们首次对别家公司的模型进行公开点评,实属罕见:


图源:https://x.com/lvwerra/status/1884314249574662439


首先,DeepSeek 模型的进步再次表明,2025 年的人工智能竞赛将非常激烈,比如从 V3 到 R1 的迭代只间隔短短几周时间。



其次,DeepSeek 颠覆了人们对 AI 成本的看法。


OpenAI 前政策研究员 Miles Brundage 表示,R1 使用了两个关键的优化技巧:更高效的预训练和思维链推理强化学习。这种组合使模型能够实现 o1 级性能,同时使用更少的计算能力和资金。


DeepSeek 的成功让人们思考,是否真的需要数十亿美元的计算才能赢得人工智能竞赛。传统观点认为,大型科技公司将主宰人工智能的下一步,仅仅是因为它有足够消耗的「闲钱」。现在,看起来大型科技公司只是在烧钱。计算出这些模型的实际成本有点棘手,由于制裁,DeepSeek 可能「无法诚实地说出它拥有什么类型的 GPU 和多少个 GPU」。


但围绕 DeepSeek 的争议可能刚刚开始。


一方面,OpenAI 和微软目前正在调查这家中国竞争对手是否使用了 OpenAI 的 API 来训练 DeepSeek 的模型。彭博社本周早些时候报道称,微软的安全研究人员去年底通过 OpenAI 开发者账户检测到大量数据被使用,这些数据可能与 DeepSeek 有关。


另一方面,据彭博社报道,美国正在调查 DeepSeek 是否通过新加坡的第三方购买了先进的英伟达芯片,以规避相关限制。


图源:https://www.bloomberg.com/news/articles/2025-01-31/us-probing-whether-deepseek-got-nvidia-chips-through-singapore


DeepSeek 是否真的违反了上述限制?在一篇长文中,著名分析师 Ben Thompson 表示,从 DeepSeek 以往公开的每一代模型的研发细节来看,大量创新方法都是为克服使用 H800 而不是 H100 所隐含的内存带宽不足问题而设计。


「DeepSeek 实际上对每个 H800 上的 132 个处理单元中的 20 个进行了编程,专门用于管理跨芯片通信。这在 CUDA 中实际上是不可能做到的。DeepSeek 工程师不得不降级到 PTX,这是 Nvidia GPU 的低级指令集,基本上就像汇编语言一样。这是一个疯狂的优化级别,只有在使用 H800 时才有意义。」


「DeepSeek 在设计此模型时做出的所有决定只有受限于 H800 时才有意义;如果 DeepSeek 可以使用 H100,他们可能会使用更大的训练集群,而专门针对克服带宽不足的优化会少得多。」


「我上面提到,如果 DeepSeek 可以使用 H100,他们可能会使用更大的集群来训练他们的模型,因为这将是更简单的选择;事实上,他们没有,而且带宽受限,这推动了他们在模型架构和训练基础设施方面的许多决策。看看美国实验室:他们没有花太多时间进行优化,因为 Nvidia 一直在积极推出更强大的系统来满足他们的需求。阻力最小的路线就是向 Nvidia 付费。然而,DeepSeek 只是证明了另一条路线是可行的:在较弱的硬件和较低的内存带宽上,大量优化可以产生显着的效果;仅仅向 Nvidia 支付更多费用并不是制作更好模型的唯一方法。」


在文章中,Ben Thompson 还强调了 DeepSeek R1 带给所有科技巨头的长期影响:


从长远来看,模型商品化和更便宜的推理(DeepSeek 也证明了这一点)对大型科技公司来说非常有利。

如果微软能够以极低的成本为客户提供推理服务,那么这意味着微软在数据中心和 GPU 上的支出会更少,或者,考虑到推理成本要低得多,使用率可能会大幅提高。
另一个大赢家是亚马逊:如果有非常高质量的开源模型,它们可以以远低于预期的成本提供服务。

苹果也是大赢家。推理所需的内存需求大幅减少,使边缘推理更加可行,而苹果拥有最好的硬件。Apple Silicon 使用统一内存,这意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享内存池;这意味着苹果的高端硬件实际上拥有最好的推理消费芯片(Nvidia 游戏 GPU 的最大 VRAM 为 32GB,而苹果的芯片的最大 RAM 为 192 GB)。
与此同时,Meta 是最大的赢家。去年秋天,我已经阐述了 Meta 业务的各个方面如何从人工智能中受益;实现这一愿景的一大障碍是推理成本,这意味着,考虑到 Meta 需要保持领先地位,推理成本大幅降低以及训练成本大幅降低将使这一愿景更容易实现。

与此同时,谷歌的情况可能更糟:硬件要求的降低削弱了谷歌 TPU 的相对优势。更重要的是,一个零成本推理的世界增加了取代搜索的产品的可行性和可能性。当然,谷歌的成本也降低了,但任何改变现状的行为都可能是负面的。


经此一役,今年的大模型格局将会如何演变,你怎么看?


参考链接:

https://www.theverge.com/news/602162/microsoft-deepseek-r1-model-azure-ai-foundry-github

https://stratechery.com/2025/deepseek-faq/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



我觉得 DeepSeek 团队的技术实力真的很强,能在有限的资源下做到这种程度,确实很厉害。除了技术上的优化,我觉得也可能有一些管理上的因素,比如团队的执行力很强,或者内部沟通很高效。

如果真的绕过了禁令,那可能会加剧国际关系的紧张,导致更严格的制裁措施。同时,也会对科技竞争带来影响,可能会促使其他国家加大对芯片技术的投入,形成新的技术壁垒。

我觉得 DeepSeek 应该不会冒这么大的风险,毕竟被发现的后果很严重。但如果真的绕过了禁令,那对国际关系和科技竞争的影响肯定会很大,可能会引发新一轮的技术竞赛和贸易摩擦。

我倒是觉得对普通用户来说影响不大,这些都是商业竞争,最多也就是换个名字用而已,底层技术还是那些,该收费的还是收费。

这相当于打了美国的脸啊,美国肯定不会坐视不管的,估计会采取更强硬的措施来限制 DeepSeek 的发展。但从另一个角度看,这也说明了美国的技术封锁并不完全有效,其他国家仍然可以通过各种方式获取先进技术。

我觉得最大的影响是可能会降低 AI 使用门槛。现在很多 AI 工具要么价格昂贵,要么使用复杂,DeepSeek R1 的出现可能会推动更易用、更接地气的 AI 工具的出现,让更多普通人也能体验到 AI 的便利。

对普通用户来说,最直接的影响就是未来可能会出现更多功能更强大,价格更亲民的 AI 应用。DeepSeek R1 的低成本和高性能,可能会带动整个行业的成本下降,最终受益的还是我们这些普通用户。

有没有可能 DeepSeek 其实是用了其他的硬件,只是对外宣称用的是 H800,以此来迷惑竞争对手?

文中提到了 DeepSeek 对 H800 的深度优化,比如使用低级指令集 PTX 进行编程。除此之外,我觉得可能还有一些其他的优化策略,比如算法层面的改进,或者使用了更高效的训练数据。