个人玩转大模型:Mac Mini大战英伟达Project DIGITS,谁是性价比之王?

想玩大模型?Mac Mini经济实用,英伟达Project DIGITS性能强悍,该如何选择?

原文标题:个人跑大模型,英伟达「皮衣刀客」新出的Project DIGITS与M4 Mac Mini到底哪个好?

原文作者:机器之心

冷月清谈:

最近,英伟达发布了AI超级计算机Project DIGITS,引发了关于个人运行大模型的讨论,特别是与Mac Mini的对比。

Mac Mini凭借其价格和易用性,被一些人认为是"测试AI的完美计算机",甚至有人用它搭建了上千台的LLM集群,进行模型训练和推理。

然而,Project DIGITS在性能上明显胜出。它拥有更强大的CPU和GPU,理论算力远超Mac Mini。价格方面,虽然Project DIGITS起售价更高,但考虑到其性能优势,性价比更高。

不过,Project DIGITS也存在一些潜在问题,例如内存带宽限制,可能影响大型模型的运行效率。

总的来说,Mac Mini适合轻量级AI任务和日常使用,而Project DIGITS则更适合对性能有更高要求的专业用户。

怜星夜思:

1、文章提到有人用1000台Mac Mini训练模型,这也太壕了吧?除了成本,这种做法还有什么优缺点?
2、Project DIGITS的内存带宽被认为是瓶颈,这会对实际使用体验带来哪些影响?
3、对于普通开发者来说,Project DIGITS和Mac Mini哪个更值得入手?

原文内容

机器之心原创

机器之心编辑部


前些天,英伟达发布了一大堆东西,其中包括一款 AI 超级计算机 Project DIGITS,机器之心也在第一时间进行了报道,参阅《》。在这篇文章的评论区,一位读者的问题引发了不少争议。



虽然该问题的最高赞回复表示这是「英伟达被黑得最惨的一次」,但实际上使用 Mac Mini 作为个人的大模型运行平台并不是什么罕见操作。

Fast Company 甚至认为 M4 Mac Mini 是「测试 AI 的完美计算机」。


你也能在社交网络上找到许多用户分享的经验。




其实,上图中的这位 Alex Cheema 不仅仅是在 Mac Mini 上运行自己的个人 LLM 集群,也是在为自家公司 EXO Labs 做概念验证。其在今年初宣布推出了 EXO Gym 竞赛,开始测试能否在较慢的互联网带宽上实现有效的低延迟训练,而他们为此准备的 Mac Mini 数量更是多达 1000 台!是的,你没有看错,不只是使用 Mac Mini 来执行推理,还使用它们来训练模型。



当然,这种做法同样也是极具争议,不过有兴趣自己尝试的读者也可使用他们的开源软件库,目前该项目已经收获了超过 1.84 万 star。

  • GitHub 地址:https://github.com/exo-explore/exo

总之,至少在运行推理方面,看起来使用 Mac Mini 确实可行。现在,我们就来严肃地讨论一下这个问题:对于个人用户而言,如果想自己跑本地大模型,Mac Mini 和英伟达 Project DIGITS 到底选哪个更好?

参数对比

比较谁更胜一筹的最直观方法是比较它们的参数。

价格

首先来看价格。

根据芯片、内存和硬盘的不同配置,M4 和 M4 Pro 芯片的国行版 Mac Mini 价格从 4499 元到 35749 元人民币不等,国际版则是从 599 美元到 4699 美元不等。

而 Project DIGITS 目前已知的起售价为 3000 美元。而这个 3000 美元版本的配置情况大概是 128GB 内存和高达 4TB 的 NVMe 存储。

而 64GB 内存和 4TB 硬盘的 M4 Pro 版 Mac Mini 的官方价格就已经达到了 3199 美元起,超过了 Project DIGITS。

配备 12 核 CPU、16 核 GPU 和 16 核 Neural Engine 的 M4 Pro 芯片的 Mac Mini,当选择 64GB 内存和 4TB 硬盘时,售价为 3199 美元

因此至少在价格上,Project DIGITS 先拿下一分。

性能参数

目前,由于 Project DIGITS 还没上市,因此我们自然无法获取其与 Mac Mini 的直接性能对比数据,但我们可以通过一些基本的配置情况来进行最基础的评估。



首先是 CPU 和 GPU。Project DIGITS 采用的计算核心是 GB10 Superchip,由 Grace CPU 和 Blackwell GPU 组成。其中,Grace CPU 配置了 20 个采用 Arm 架构构建的高能效核心,GPU 则是先进的 Blackwell,采用了最新一代 CUDA 核心和第五代 Tensor Cores,可实现 1 PetaFLOP FP4 的 AI 计算。1 PetaFLOP!着实吓人,不过这是 FP4 精度的。如果等价到 FP16 精度,则可以说是 250 TFLOPS(当然这种算法很不严谨)。

英伟达表示,借助这款超级计算机,开发者可以运行多达 2000 亿参数的大型语言模型,从而加速 AI 创新。此外,借助 NVIDIA ConnectX 网络,还可将两台 Project DIGITS AI 超级计算机连接起来,运行多达 4050 亿参数的模型。也就是说,足以运行 Llama 3.1 405B。

而 Apple M4 Pro 芯片的 CPU 则是 12 核,其中包含 8 个性能核心与 4 个效率核心;GPU 则是 16 核版本。而其在 FP16 精度下的速度为 17 TFLOPS 。

根据 Alex Cheema 的计算,Project DIGITS 可以说在各个层面都碾压了 M4 Pro Mac Mini。


简单算算性价比:

  • Project DIGITS:250 TFLOPS / $3,000 ≈ 0.083 TFLOPS/美元
  • M4 Pro Mac Mini:17 TFLOPS / $2,200 ≈ 0.0077 TFLOPS/美元

也就是说,用同样的钱,能从 Project DIGITS 获得超过 M4 Pro Mac Mini 超过 10 倍的算力!

不过知乎用户 Karminski - 牙医也指出了 Project DIGITS 的一大不足。他表示「它是统一内存,即 CPU 和 CPU 共享 LPDDR5X。它不是 GDDR6,也不是 HBM2 的。」


虽然该设备的内存有 128 GB,「但是根据 Grace 架构 CPU 的 Product Brief,单 CPU 的内存带宽最大只有 512GB/s。所以如果用这个设备来运行大语言模型,瓶颈就会变成这个内存带宽。」



他也做了一番计算,得出的结论是「在 512GB/s 的情况下,运行 70b-4bit 规模的模型,生成速度理论最大值是 512/40=12.8 token/s。如果想要运行 200B 规模的模型 (200B4bit 量化大概是 114GB),理论生成速度是 512/114≈4.5token/s」。


因此,Project DIGITS 可能也暗暗经受了老黄擅长的刀法。


Project DIGITS 果真赛高


整体来看,读者 Thomas Copper 确实没有说错,至少在 AI 计算任务上,Mac Mini 确实远远不及 Project DIGITS。但需要说明,Mac Mini 并不是专为 AI 任务打造,也适用于各种日常和工作任务。

之前不少人表示 Mac Mini 是实现 AI 普及化(democratize AI)的开始,但实际比较下来,或许真正的开始是英伟达 Project DIGITS!

图片

不过也需指出,Project DIGITS 才刚刚露脸,预计要到 5 月份才上市,市场表现究竟如何还有待检验——毕竟我们到时才能真正知道「皮衣刀客」究竟刀了哪些地方。但至少从社交网络上的分享来看,已经有不少人准备好自己的钱包了。


对此,你有什么看法呢?

参考链接:
https://www.youtube.com/watch?v=GBR6pHZ68Ho
https://www.jeffgeerling.com/blog/2024/m4-mac-minis-efficiency-incredible
https://x.com/alexocheema/status/1876676954549620961
https://www.zhihu.com/question/8953765123/answer/73915191447

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

内存带宽不足会限制数据传输速度,导致GPU空闲等待,从而降低整体性能。对于大型模型来说,这个问题尤为突出,因为模型参数需要频繁地在CPU和GPU之间交换。

我觉得这个操作更像是概念验证或者营销噱头,毕竟Mac Mini的性能并不算顶级,用它来训练大模型,效率可能并不高。或许他们是想验证在低带宽环境下的训练效果,或者探索一种新的分布式训练方法。

简单来说,就是GPU的性能发挥不出来,就像一条高速公路,但入口太窄,车流上不去,白瞎了高速公路的性能。所以,即使Project DIGITS的GPU算力很强,但实际运行大模型时,速度可能并没有想象中那么快。

内存带宽瓶颈会导致模型训练和推理速度变慢,增加延迟。对于需要实时响应的应用场景来说,这是个致命的问题。比如,你想用它来做实时语音翻译,可能会出现卡顿、延迟等现象。

Project DIGITS的目标用户更像是企业或者研究机构,普通开发者买一台Project DIGITS,有点像杀鸡用牛刀。Mac Mini虽然性能没那么强,但胜在价格亲民,而且可以胜任日常工作,性价比更高。

这取决于你的需求和预算。如果只是想体验一下大模型,或者做一些轻量级的AI开发,Mac Mini就足够了。但如果你是专业AI开发者,对性能有较高要求,并且预算充足,那么Project DIGITS是更好的选择。

如果你的主要工作是AI开发,并且经常需要运行大型模型,那么Project DIGITS的性能优势可以带来巨大的效率提升,值得投资。但如果你只是偶尔玩玩AI,Mac Mini就足够了,没必要花那么多钱买Project DIGITS。

1000台Mac Mini训练,壕是真壕!优点可能是分布式计算,可以并行处理大量数据,加快训练速度。缺点嘛,除了成本高,还有管理维护的难度,这么多机器,同步、故障排除都是问题。另外,Mac Mini的散热可能也是个挑战,这么多机器堆在一起,得建个专门的机房散热才行。

这得看训练什么模型,如果是轻量级的模型,1000台Mac Mini的算力还是相当可观的。而且Mac Mini功耗相对较低,整体能耗可能比大型服务器集群要低。当然,前提是你得有地方放这1000台Mac Mini。