低成本高性能AI模型:悖论还是可能?

探讨AI模型在低成本需求下,如何保持高性能。模型量化、剪枝等技术被广泛应用,但可能牺牲精度。低成本高性能是悖论还是可能?

原文标题:低成本下的高性能模型,是悖论还是可能?

原文作者:机器之心

冷月清谈:

文章探讨了AI公司在追求低成本的同时,如何保证大模型性能的问题。用户对大模型性能下降的抱怨,以及DeepSeek-R1满血版引发的争议,都指向了模型成本与性能之间的矛盾。为了降低成本,业界普遍采用模型蒸馏、量化和剪枝等技术,但这些方法可能会牺牲模型精度。文章分析了这些应对策略,并提出了在成本压力下,AI公司如何平衡模型性能与成本的挑战。

怜星夜思:

1、牺牲一点精度来换取更低的成本,让更多人用上AI,这种做法是利大于弊吗?
2、文章提到DeepSeek-R1满血版需要高昂的硬件成本,这是否意味着只有大公司才能玩得起高性能AI?中小企业还有机会吗?
3、文章中提到了模型量化、剪枝等技术,这些技术对于普通用户来说可能比较陌生。你认为AI公司应该如何向用户解释这些技术,让他们更好地理解AI的局限性?

原文内容

机器之心PRO · 会员通讯 Week 22

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1. 低成本下的高性能模型,是悖论还是可能?

用户感知的模型「性能下降」是 AI 公司的有意为之?为什么提供免费满血版 deepseek 推理服务的公司并不多?模型成本居高不下,真的只能靠「精度换算力」吗?量化和剪枝之外,「业界龙凤」 们都有哪些低成本高性能通吃的 「花活」?...

2. 从性能到实战,怎样才算是靠谱的 Agent 产品?

为什么评估 Agent 产品需要双轨评估体系?基准测试不能只设计更难的问题?LLM 与 Agent 产品的测评集有何区别?长青评估机制与传统基准有何区别?IRT 如何支撑评估系统的动态更新?国内外头部模型的「招聘」和「营销」能力如何?...


本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 10 项,国外方面 8 项。
本期通讯总计 23426 字,可免费试读至 7% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  低成本下的高性能模型,是悖论还是可能?

引言2025 年上半年,几乎所有互联网大厂都宣称接入相同的「满血版」DeepSeek-R1 大模型,但据用户实际测试的效果来看,各家的服务体验和模型能力依然存在显著差异。通过模型蒸馏和量化等方法来节省其推理成本,这种看似极具性价比的方案,是否是长久之计?

经营 「token 工厂」 有人赚有人亏,通过降低精度扭亏为盈已是业内公开的秘密了吗?

1、大语言模型(LLMs)性能和成本之间的矛盾一直是公众和业界关注的焦点。顶尖大模型公司是否在「为了节省推理成本而牺牲大模型精度或服务稳定性」的讨论一直没有间断。

2、自 ChatGPT 爆火之后,其用户时不时会在社交媒体上抱怨其性能下降,形容模型的推理能力和其他输出相比之前阶段似乎「更懒惰」和「更愚蠢」。[1-1]

① 这种不满主要体现在逻辑减弱、错误响应增多、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号以及只记得最近的提示等问题上。

3、公众对大模型公司为省钱而牺牲模型性能的担忧在技术和市场层面不断得到佐证,并在 DeepSeek-R1 满血版的争议中加剧。

① 技术分析显示,满血版 DeepSeek-R1 需要多台高性能 GPU 服务器并行支持,仅一次性硬件投入成本就高达数百万元。为了避免投入额外硬件,或让有限的硬件可以服务更多的用户,部分平台很可能采用了蒸馏版替代,导致模型的推理能力和稳定性大幅下降。

② 真正的「满血版」DeepSeek-R1 运行需要更多的硬件投入,该模型的参数数量达到 6710 亿,推理能力强大,适用于科研和复杂任务。[1-3][1-4] 要有效运行如此庞大的模型,需要四台 8 卡一体机才能保证流畅运行,这对厂商来说意味着高达六七百万元的硬件成本。

③ DeepSeek 官方公布的参数精度是 FP8,即 8 比特参数,一台 8 卡 A100 的一体机勉强能运行原版模型。一些厂家为了压低成本,缩小参数,量化为 4 比特参数,导致用户质疑模型是否是真正的「满血版」。

④ 潞晨科技尤洋曾在社交平台上发文称,DeepSeek 模型的高昂成本使得服务商的利润空间几乎为零,甚至导致亏损。[1-5] 据尤洋测算,按照每百万 token 收费 16 元,假设每日输出 1000 亿 token,基于满血版 DeepSeek-R1 的服务每月的机器成本是 4.5 亿元,亏损 4 亿元。用 AMD 芯片月收入 4500 万元,月机器成本 2.7 亿元,这意味着亏损也超过 2 亿元。

⑤ 同时随着市场竞争的加剧,许多大厂通过低价和免费策略来争夺客户,这进一步加剧了 MaaS(模型即服务)模式的亏损局面。在这种「卷价」竞争中,厂商不得不寻找其他方式例如来降低成本,才能在不彻底亏损的情况下继续运营。


模型成本居高不下,只能靠「精度换算力」吗?

1、在需要平衡成本与性能的背景下,服务于高端用户的「满血版」大模型并非随处可见,尤其在市场上免费或者低价的服务中,往往难以找到性能足够强大的版本。一些 AI 公司开始通过采用模型蒸馏或简化版模型来降低推理成本,以平衡其资金投入。[1-2]

2、为应对这些成本压力,业内常见的应对策略之一是通过降低模型精度来节省成本开销,包括模型量化、模型剪枝、知识蒸馏等技术手段已经成为普遍做法。[1-6][1-7]

① 模型量化通过降低权重的数值精度(如将 16 位浮点数转换为 8 位整数)来减小计算复杂度和内存占用,从而减少硬件需求,但由于数值精度的降低,量化有可能会引入误差,从而导致模型输出的精度下降。

其实也不一定。现在有很多云服务提供商,可以按需租用GPU资源,中小企业可以通过这种方式来降低硬件成本。关键是要找到合适的合作伙伴,选择性价比高的云服务。

我是个学术派,我更关注长远影响。如果一开始就追求低成本,牺牲精度,可能会阻碍AI技术的进一步发展。毕竟,科研需要的是极致的精度和性能。如果大家都只关注眼前的利益,那谁来推动技术的进步呢?

我觉得中小企业可以换个思路,不要一味追求最顶尖的模型,可以专注于特定领域,开发针对性更强的AI应用。这样不仅可以降低对硬件的要求,还能在细分市场中找到自己的优势。

与其说是资金问题,不如说是人才问题。大公司有钱,可以随便烧,但中小企业更需要的是懂技术、懂业务的复合型人才。只要有优秀的人才,即使没有最先进的硬件,也能做出有价值的AI产品。

我认为不能一概而论。如果牺牲的精度对最终用户体验影响不大,比如只是在某些极端情况下出错,那绝对是利大于弊。毕竟,能让更多人用上AI,享受到AI带来的便利,这本身就是一种进步。但如果牺牲的精度影响到了核心功能,那就得慎重考虑了。

最关键的是要诚实。AI公司应该坦诚地告诉用户,AI不是万能的,它也有局限性。不要过分夸大宣传,以免用户在使用过程中产生不合理的期望。

AI公司可以制作一些科普视频或动画,用生动形象的方式来介绍AI技术的原理。同时,也可以公开一些测试数据,让用户了解不同模型的性能差异。透明度很重要。

从商业角度来看,这是一种常见的策略。就像快餐店,为了降低成本,食材可能没那么高级,但能让更多人消费得起。AI也是一样,先让用户体验到基础功能,等他们有了需求,再推出更高端、更精准的版本,这不失为一种好的商业模式。

我觉得最好的方式是打比方。比如,可以把模型量化比作把照片压缩,虽然文件变小了,但清晰度也会有所降低。用通俗易懂的语言解释,用户才能真正理解。