清华团队开源「赤兔」推理引擎:FP8 模型不再挑卡,DeepSeek 推理成本减半速度翻番

清华团队开源「赤兔」推理引擎,突破 FP8 模型硬件限制,显著降低 DeepSeek 模型推理成本,提升速度,加速国产AI技术闭环。

原文标题:FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎

原文作者:机器之心

冷月清谈:

清华系科创企业清程极智与清华大学翟季冬教授团队联合开源大模型推理引擎「赤兔」(Chitu),实现了在非 H 卡设备上运行原生 FP8 模型的突破。在 A800 集群上的实测数据显示,使用赤兔引擎部署 DeepSeek-671B 满血版推理服务,相比 vLLM 部署方案,GPU 使用数量减少 50%,输出速度提升 3.15 倍。赤兔引擎具有多元算力适配、全场景可伸缩、长期稳定运行等特性,并通过对 GeMM、MoE 等关键算子进行指令级优化,实现了 FP8 数据的原生处理能力,降低了大模型部署的门槛和运营成本。该引擎的开源有助于弥合国产芯片与国际先进芯片之间的「时间差」,减轻芯片厂商的软件开发负担,并为企业提供端到端的大模型部署解决方案。

怜星夜思:

1、赤兔引擎宣称能够支持多元算力,包括国产芯片。除了降低成本,在国产芯片上部署大模型推理服务还有什么战略意义?
2、文章提到赤兔引擎通过优化算子实现了FP8数据的原生处理,避免了量化带来的精度损失。这种原生处理方式具体在技术上有哪些挑战?
3、赤兔引擎的开源,对于国内大模型和芯片产业意味着什么?它可能会带来哪些机遇和挑战?

原文内容

机器之心原创

作者:闻菲、张倩

「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。


随着 DeepSeek 引燃市场对于大模型私有化部署的热情,模型部署的效率与成本成为企业 AI 落地的关键瓶颈。

 

今天,清华系科创企业清程极智清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」(Chitu),率先实现了非 H 卡设备(英伟达 Hopper 架构之前的 GPU 卡及各类国产卡)运行原生 FP8 模型的突破


在 A800 集群上的实测数据显示,用赤兔引擎部署 DeepSeek-671B 满血版推理服务,相比于 vLLM 部署方案,不仅使用的 GPU 数量减少了 50%,而且输出速度还提升了 3.15 倍


图片
 
赤兔引擎代码已发布至 GitHub 开源社区:

  • https://github.com/thu-pacman/chitu

 
赤兔 (Chitu) 开源:
国产大模型基础设施又一里程碑

当前,拥有完整自主可控的 AI 技术栈已成为国家战略性需求。DeepSeek、QwQ 等优秀的国产开源大模型正在重塑全球科技产业格局,但在大模型推理部署领域,业界仍高度依赖国外开源工具。
 
赤兔引擎的开源为业界提供了国产开源新选择,也意味着国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成
 
「我们看到国内大模型领域取得了显著进步,但在基础设施层面,尤其是推理引擎这一核心环节仍缺乏生产级开源产品。」清程极智 CEO 汤雄表示,开源赤兔引擎是我们助力国内 AI 生态建设的重要一步。」
 
作为清华大学高性能计算研究所所长,翟季冬教授长期致力于高性能计算与系统软件优化研究。翟教授指出:「赤兔引擎凝结了团队多年的并行计算编译优化技术积累,目标是建立一个真正适合国内多元算力环境的高性能推理引擎,能够弥合先进模型与多样化硬件之间的差距,为中国大模型的产业落地提供关键支撑。」
 
本次开源的版本特别聚焦于当前市场最迫切的需求 —— 即实现 DeepSeek FP8 精度模型在存量英伟达 GPU 上的无损且高效部署。团队还透露,针对多款国产芯片特别优化的版本也将相继对外开源。这一突破不仅降低了大模型落地门槛,也为国产 AI 算力的发展带来了新的契机。
 
赤兔引擎核心优势:
全场景性能优化与架构适应性

随着 DeepSeek V3 和 R1 等新一代模型采用 FP8 混合精度训练并发布,企业面临新的部署挑战。这些 FP8 模型针对 NVIDIA Hopper 架构(H100/H200)深度定制,在其他硬件上部署时(包括 NVIDIA 其他架构 GPU 和国产芯片)需要进行额外的适配。
 
先进的模型与最难获取的硬件绑定,这是当前企业大模型落地的最大痛点之一汤雄表示。随着更新一代模型和芯片往 FP4 等新型数据精度方向的发展,这种代际效应将愈发显著。
 
另一个挑战是现有开源推理引擎对多元算力环境的支持不足。当前,vLLM 等主流引擎主要针对 NVIDIA 最新架构优化,对国产芯片或较老款 GPU 的适配并不理想。在国内企业私有化部署场景中,NVIDIA 的 Ampere 系列 GPU、国产芯片等多元算力占据了相当比例,这些场景亟需更加灵活的解决方案。
 
赤兔从一开始就定位于生产级大模型推理引擎,并且充分考虑了企业 AI 落地从小规模试验到大规模部署的渐进式特点,专注于提供以下重要特性:
 
  • 多元算力适配:不仅支持 NVIDIA 最新旗舰到旧款的多种型号,也为国产芯片提供优化支持。
  • 全场景可伸缩从纯 CPU 部署、单 GPU 部署到大规模集群部署,赤兔引擎提供可扩展的解决方案。
  • 长期稳定运行:可应用于实际生产环境,稳定性足以承载并发业务流量。

在性能优化方面,赤兔的设计理念是「对症下药」,支持「低延迟优化」、「高吞吐优化」和「小显存优化」,可以根据不同场景需求,在不同硬件配置和系统环境下,针对不同负载的特性,提供相应的最优解决方案。在实际部署中,这意味着赤兔引擎可以根据系统资源状况,在 GPU 利用率、内存效率和网络传输之间寻找最佳平衡点。
 
 
本次开源的技术突破是实现非 H 卡设备原生运行 DeepSeek FP8 精度模型。「我们没有走简单的量化路线,而是通过在算子内部高效处理 FP8 数据,确保模型推理质量不受任何影响。」汤雄表示:「具体来说,我们对 GeMM、MoE 等一系列关键算子进行了指令级的优化,实现了 FP8 数据的原生处理能力。」

这种技术实现的难点在于需要深入理解不同硬件架构的指令集特性,以及 FP8 与其他精度格式之间的数学等效关系,结合硬件特性分析并优化。得益于团队在系统软件人才方面的积累,才能够在较短时间内实现这一突破。传统上为每种芯片架构人工编写优化代码的工作量巨大,而团队所具备的智能编译技术有助于加速高性能算子的开发过程。
 
在 A800 集群上的实测结果表明,与 vLLM 相比,赤兔引擎实现 DeepSeek-671B 满血版推理所需 GPU 数量减少 50%;尽管只用了一半的算力,但推理速度却达到其 3.15 倍。这意味着企业可以用一半的硬件资源获得更高的推理性能,极大降低了部署门槛和运营成本。

「部署大模型的最低算力成本是一个时常被忽视但极其重要的指标。」清程团队强调,显著降低推理成本对推广 AI 应用至关重要,赤兔推理引擎在设计之初就将降低用户的算力成本纳入核心考量。
 
开源共建
为国产芯片「抢时间」

赤兔推理引擎的开源标志着清程极智的业务发展进入新的阶段。清程极智在持续提供企业级软件部署运维服务和全套人工智能解决方案的同时,将把更多实际业务中的经验通过开源的方式回馈社区。

「目前英伟达 GPU 在大模型推理市场占据主流地位,未来几年可能出现国外 AI 芯片和国内 AI 芯片百花齐放的态势。」汤雄分析指出:「我们希望赤兔引擎成为连接多元算力与大模型应用的桥梁,同时通过推理一体机产品为企业提供端到端的大模型部署解决方案。」
 
清程极智的推理一体机产品基于赤兔引擎,适配多种硬件和模型,能够为企业提供开箱即用的私有化部署方案,并配套专业的运维与优化服务。

对于国产 AI 基础设施而言,赤兔引擎的开源有助于弥合国产芯片与国际先进芯片之间的「时间差」—— 当新模型架构和新数据类型出现时,赤兔引擎可以帮助国产芯片快速适配。
 
其次,开源引擎减轻了芯片厂商的软件开发负担。芯片厂商可以专注于硬件创新,而不必每家都重复开发完整的软件栈。翟季冬教授表示,「我们目前与多家国产芯片厂商进行合作,各方可直接向赤兔项目贡献代码,共同建设一个更强大的开源生态。」
 
「开源就是做给大家用,用了才知道好不好。我们把代码放到 GitHub 上,有问题提 issue,有想法提 PR,一起把它做得更好。」汤雄超说。

「无论用什么卡,赤兔都是高性价比的选择。」

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

学术点的说法哈,这叫“战略自主可控”,确保国家在人工智能领域的主导权。有了自己的硬件和软件,才能在全球AI竞争中占据更有利的位置,不至于受制于人。否则,就像在沙滩上建城堡,风一吹就没了。

意味着咱们有了自己的“车轮子”,不用完全依赖国外的轮子了!机遇是,加速国产大模型和芯片的适配,降低部署成本,让更多企业能用上AI。挑战是,开源生态的建设需要大家一起努力,需要持续投入研发,保持技术领先。

这个技术细节比较深奥,我尝试用通俗的说法来解释一下。FP8是一种低精度的数据格式,直接用它来做计算,对硬件架构和指令集有很高要求,需要深入理解硬件底层才能进行优化。这就像用自行车跑F1赛道,需要对自行车进行魔改才行。

谢邀,人在实验室,刚下CUDA。FP8原生处理的挑战在于,它需要编译器和硬件的深度协同。编译器需要理解FP8的特性,生成高效的机器码,而硬件则需要提供对FP8计算的原生支持。这其中涉及到指令集扩展、数据类型转换、存储优化等多个方面,任何一个环节出现问题,都会影响性能和精度。

楼上说的有道理,我补充一点。国产芯片的生态建设需要应用场景来反哺,如果大模型推理能在国产芯片上跑起来,就能吸引更多开发者和企业加入国产AI生态,形成正向循环,加速技术迭代。

降低成本是看得见的好处,但战略意义更重要。你想想,万一哪天英伟达的卡不让用了,或者供货不足,我们也能保证AI应用的正常运行,避免被卡脖子,这才是底气!

从编译优化的角度看,需要针对不同的硬件架构,设计高效的FP8指令调度方案,充分利用硬件的并行计算能力。同时,还要保证FP8计算的数值稳定性,避免出现溢出或者精度丢失等问题,这需要在算法层面进行精细调整。

从商业角度看,赤兔引擎的开源可能会催生一批基于国产芯片和大模型的AI解决方案提供商,他们可以利用赤兔引擎快速搭建私有化部署方案,为企业提供定制化的服务。当然,也可能面临商业模式的挑战,如何通过开源软件盈利,是一个需要认真思考的问题。

开源就像一个加速器,能加速技术创新和产业发展。但开源也需要维护,需要有人贡献代码、修复bug、解答问题。如果大家只是拿来主义,不参与社区建设,那开源项目也会逐渐失去活力。