DeepSeek开源高性能文件系统3FS,读取速度达6.6TiB/s,助力AI训练和推理。
原文标题:DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」
原文作者:机器之心
冷月清谈:
怜星夜思:
2、与其他主流的分布式文件系统(例如 HDFS、Ceph)相比,3FS 的主要优势和劣势分别是什么?
3、文章中提到 3FS 采用了分离式架构。这种架构是如何工作的,以及它对性能和可靠性有哪些影响?
原文内容
-
在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量;
-
在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量;
-
每个客户端节点在 KVCache 查找时可达到 40+ GiB/s 的峰值吞吐量;
-
采用分离式架构,具有强一致性语义。
-
开源链接:https://github.com/deepseek-ai/3FS
-
Smallpool(3FS 上的数据处理框架):https://github.com/deepseek-ai/smallpond
-
分离式架构。结合了数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置限制的方式访问存储资源。
-
强一致性。实现了带有分配查询的链式复制(CRAQ)以保证强一致性,使应用程序代码简单且易于理解。
-
文件接口。开发了由事务性键值存储(如 FoundationDB)支持的无状态元数据服务。文件接口广为人知且随处可用。无需学习新的存储 API。
-
数据准备。将数据分析管道的输出组织成层次化的目录结构,并高效管理大量中间输出。
-
数据加载器。通过支持跨计算节点对训练样本的随机访问,消除了预取或打乱数据集的需求。
-
检查点保存。支持大规模训练的高吞吐量并行检查点保存。
-
用于推理的 KVCache。为基于 DRAM 的缓存提供了一种成本效益高的替代方案,提供高吞吐量和显著更大的容量。