大模型分布式训练关键技术：数据并行策略详解

DatapiTHU · 2025 年4 月 14 日 10:11

本文介绍了大模型分布式训练中的数据并行技术，对比了DP和DDP两种策略，重点讲解了DDP中Ring-All Reduce算法。

原文标题：原创｜大模型分布式训练中的关键技术：数据并行（一）

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247655594&idx=1&sn=b4d6ad4aefcd2555fc902c73f584a9a5&

冷月清谈：

本文深入探讨了在大模型训练中至关重要的数据并行技术，重点介绍了两种核心策略：DP（Data Parallelism）和 DDP（Distributed Data Parallelism）。DP策略依赖于主GPU进行梯度聚合，存在通信瓶颈和负载不均衡问题，适用于单机多卡场景。DDP策略则采用去中心化架构，通过 Ring-All Reduce 算法实现高效的梯度同步，减轻了通信负担，更适用于多机多卡环境。文章详细解析了 Ring-All Reduce 算法中的 Reduce-Scatter 和 All-Gather 两个步骤，并分析了 DDP 策略的通信效率，指出其通信时间与节点数量无关，从而提升了整体训练速度。通过对 DP 和 DDP 策略的对比分析，文章旨在帮助读者理解数据并行技术在突破显存容量和计算速度瓶颈方面的作用，以及 DDP 在大规模分布式训练中的优势。

怜星夜思：

1、DP策略中提到的主GPU负载过高的问题，除了使用DDP之外，还有没有其他的优化方案？例如，能否通过一些方法来减轻主GPU的计算压力？
2、文章提到了Ring-All Reduce算法的通信时间与节点数量无关，这是如何实现的？它的优势和局限性是什么？在实际应用中，有没有其他的All-Reduce算法可以选择？
3、DDP策略在多机多卡环境下的应用中，如何保证各个机器之间的数据同步？如果数据集非常大，无法一次性加载到所有机器的内存中，应该如何处理？

原文内容

作者：王可汗‍‍

        本文约2200字，建议阅读6分钟

        本文就介绍数据并行中的两个核心策略：DP和DDP。

在人工智能领域，大模型参数规模日益增长。这种增长使得传统单机训练面临两大挑战：显存容量限制（通常不超过80GB）和计算速度瓶颈（单卡算力约312 TFLOPS）。为此，数据并行（Data Parallelism）作为分布式训练的核心策略，成为支撑大模型训练的关键技术。本文就介绍数据并行中的两个核心策略：DP（Data Parallelism）和DDP（Distributed Data Parallelism）。

DP（Data Parallelism）数据并行

DP的架构设计中依赖主GPU（逻辑0卡）协调梯度聚合。图1描述了一个分布式机器学习训练的流程，其中涉及到一个主GPU（我们称之为“Master”）和多个工作GPU（我们称之为“Worker”）。DP策略可以通过torch.nn.DataParallel（）语句实现，其步骤如下：

1.首先，Master GPU加载了整个数据集和模型。

2.Master GPU将数据集和模型分发给所有的Worker GPUs。

3.每个Worker GPU都会得到一部分数据和整个模型的副本。每个Worker GPU使用自己得到的数据和模型进行计算，这个过程叫做前向计算。计算完成后，每个Worker GPU都会产生一些输出。Master GPU收集所有Worker GPU的输出，并计算整个模型的损失（loss）。损失是衡量模型预测结果与实际结果差异的指标。

4.Master GPU计算损失后，会将这个损失分发给所有Worker GPU。每个Worker GPU会根据自己计算的输出和得到的损失，计算出梯度（Gradient）。梯度表示模型参数应该如何调整以减少损失。

5.所有Worker GPU计算出的梯度被发送回Master GPU，Master GPU将这些梯度汇总加和起来。

6.Master GPU使用汇总的梯度来更新模型的参数。最后，Master GPU将更新后的模型参数再次分发给所有的Worker GPU，以便进行下一轮的训练。

DP策略存在效率和通信问题，数据集首先需要被复制到主GPU中，然后再分割成多个部分，分发到不同的GPU上。此外，模型的权重参数只在主GPU上更新，这意味着在每次迭代前，都需要将数据同步到所有的GPU上。每次迭代后，所有GPU的输出结果还需要被汇总到主GPU上。这样的数据传输很快就成为了一个瓶颈，限制了整体的训练速度。同时，这也导致了主GPU和其他GPU之间的负载不均衡，比如主GPU可能使用了大量显存，而其他GPU的显存使用却很少，这可能导致主GPU的显存不足（OOM，即Out of Memory）。

图1 DP策略的示意图

DDP （Distributed Data Parallelism）分布式数据并行

受通信负载不均的影响，DP一般用于单机多卡场景。因此，DDP作为一种更通用的解决方案出现了，既能多机，也能单机，有效解决DP策略中存在的负载不均匀问题。DDP（Distributed Data Parallelism）利用了去中心化架构。在DDP中，不再有主GPU，每个GPU执行相同的任务，推理、损失函数计算、梯度计算等都可以在各个GPU上并行独立地完成，提高了训练的效率和速度。DDP实现并行训练的核心在于模型间的梯度同步，这是通过all-reduce（全归约）通信操作实现的，保证每个GPU会得到完全相同的梯度。接下来我们介绍目前最通用的all-Reduce方法：Ring-All Reduce（环状全归约）以便理解DDP中的数据通信操作。

Ring-All Reduce则分两大步骤实现该目标：Reduce-Scatter(归约分散)和All-Gather（全聚集）。

Reduce-Scatter(归约分散)

DP中使用的架构简单并易于使用，但随着GPU卡数的增加，服务器节点通信量随之线性增加。而环状通信算法被提出，每个节点仅与相邻的节点通信。环状通信算法的优点在于数据传输的通信量恒定，不随GPU数量增加而增加。图2展示了环状归约分散的基本原理。

图2展示了环状归约分散的基本原理，其基本原理如下：

图2 环状归约分散的基本原理。

1.初始状态：

o图中有三个节点（节点1、节点2、节点3），每个节点都有自己的数据（a1, b1, c1; a2, b2, c2; a3, b3, c3）。

2.第1步：

o每个节点首先与相邻的节点交换数据并进行归约操作。

o节点1将c1与节点2的c2相加，得到c1+c2。

o节点2将a2与节点3的a3相加，得到a2+a3。

o节点3将b1与节点1的b1相加，得到b1+b3。

o这一步完成后，每个节点都有部分归约的结果。

3.第2步：

o再次进行数据交换和归约操作。

o节点1将a1与节点2和节点3的a2+a3相加，得到a1+a2+a3。

o节点2将b1与节点1和节点3的b1+b2+b3相加，得到b1+b2+b3。

o节点3将c1与节点1和节点2的c1+c2相加，得到c1+c2+c3。

All-Gather（全聚集）

图3中展示了三个节点（节点1、节点2、节点3）在All-Gather操作中的初始状态和两个步骤的变化。

初始状态

节点1：拥有数据 a1+a2+a3，b1，c1+c2

节点2：拥有数据 a2+a3，b1+b2+b3，c2

节点3：拥有数据 a3，b1+b3，c1+c2+c3

在第一步中，每个节点开始发送并接收数据：

以节点1为例：从节点2接收数据，得到b1+b2+b3，同时c1+c2+c3发送给节点3

在第二步中，节点继续交换数据，直到每个节点都拥有所有其他节点的数据。

图3 全聚集的基本原理。

现在来分析一下DDP策略的通信时间。假设共有p个节点，假设每个节点的数据是V，则单独看归约分散和全聚集，每个单独过程里每个节点向外发送和接收供经过p-1个步骤，其发送和接收的数据量大约是

。假设每个节点发送和接收的带宽都是b,则整个过程（Reduce Scatter和All Gather）的总时间为

。当p足够大时，总时间为

，这意味着通信时间与节点数p无关，这是因为DDP把负载均衡到每一个节点中。

结论

数据并行策略和分布式数据并行策略能有效摆脱显存容量限制，突破计算速度瓶颈，在大模型训练中的应用日渐广泛。

编辑：王菁‍‍‍

‍‍‍

作者简介

王可汗，清华大学博士，人工智能算法研发工程师。对数据科学产生浓厚兴趣，对机器学习AI充满好奇。期待着在科研道路上，人工智能与工业界应用碰撞出别样的火花。希望结交朋友分享更多数据科学的故事，用数据科学的思维看待世界。

数据派研究部介绍

数据派研究部成立于2017年初，以兴趣为核心划分多个组别，各组既遵循研究部整体的知识分享和实践项目规划，又各具特色：

算法模型组：积极组队参加kaggle等比赛，原创手把手教系列文章；

调研分析组：通过专访等方式调研大数据的应用，探索数据产品之美；

系统平台组：追踪大数据&人工智能系统平台技术前沿，对话专家；

自然语言处理组：重于实践，积极参加比赛及策划各类文本分析项目；

制造业大数据组：秉工业强国之梦，产学研政结合，挖掘数据价值；

数据可视化组：将信息与艺术融合，探索数据之美，学用可视化讲故事；

网络爬虫组：爬取网络信息，配合其他各组开发创意项目。

点击文末“阅读原文”，报名数据派研究部志愿者，总有一组适合你~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派THUID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

未经许可的转载以及改编者，我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

点击“阅读原文”拥抱组织

Stellar82k · 2025 年4 月 16 日 02:06

嘿嘿，我想到一个“歪招”：实在不行就把主GPU换成更好的卡呗！花钱解决问题，简单粗暴！当然，前提是有这个预算哈。

Drift815m · 2025 年4 月 16 日 12:29

从理论上讲，Ring-All Reduce通过分阶段的数据交换和归约，巧妙地避免了中心节点的瓶颈，使得整体通信复杂度保持在一个较低的水平。每个节点只需要与固定的相邻节点通信，这保证了其通信时间与节点数量的无关性。

然而，实际应用中，这个结论可能会受到一些因素的影响：

1. 网络拓扑结构：实际的网络拓扑可能并不完全符合理想的环状结构，这会导致通信效率下降。
2. 硬件异构性：集群中不同节点的计算能力和网络带宽可能存在差异，这会导致负载不均衡，影响整体性能。
3. 通信协议：不同的通信协议（例如 InfiniBand、RoCE）对All-Reduce算法的性能也会产生影响。

因此，在实际应用中，需要对Ring-All Reduce进行细致的调优，并结合硬件环境选择合适的通信协议，才能充分发挥其优势。

此外，还有一些其他的All-Reduce算法，例如：

* NCCL (NVIDIA Collective Communications Library)：NVIDIA提供的针对GPU优化的All-Reduce库，通常能提供更高的性能。
* MPI (Message Passing Interface)：一种通用的并行计算接口，也提供了All-Reduce的实现。

选择合适的All-Reduce算法需要综合考虑硬件环境、软件栈和对性能的需求。

StormyRaven098 · 2025 年4 月 16 日 21:02

这个问题涉及到分布式训练中的数据管理和同步问题，是个很重要的实际问题。

1. 数据同步：在DDP中，数据同步通常依赖于分布式数据加载器。例如，在PyTorch中，可以使用DistributedSampler来确保每个进程（对应一个GPU）只获取数据集的一个子集，并且各个子集之间没有重叠。这样，每个GPU只需要加载和处理一部分数据。

更进一步，为了保证训练的随机性，通常会在每个epoch开始前，对DistributedSampler进行shuffle操作，使得每个GPU在不同的epoch中处理不同的数据子集。

2. 大数据集处理：如果数据集太大无法一次性加载到内存，可以考虑以下策略：

* 使用硬盘作为二级存储：将数据集存储在硬盘上，使用mmap等技术将数据映射到内存中，需要时再进行加载。但这种方式会受到硬盘IO速度的限制。
* 使用数据管道（Data Pipeline）：构建一个高效的数据管道，例如使用TensorFlow的tf.data或PyTorch的DataLoader，实现数据的预处理、增强和加载，并利用多线程或异步IO来提高数据加载速度。
* 使用分布式文件系统：将数据集存储在分布式文件系统上，例如HDFS或Ceph，并使用分布式数据加载器从多个节点并行加载数据。这可以大大提高数据加载速度，但也需要额外的集群维护成本。

总的来说，数据同步和大数据集处理是分布式训练中的关键挑战，需要根据具体的应用场景和硬件环境选择合适的解决方案。

Phantom20m · 2025 年4 月 17 日 13:41

Ring-All Reduce的精妙之处在于它将通信负载分散到了每个节点上，每个节点只和相邻节点通信，形成一个环状的通信拓扑。这样，即使节点数量增加，每个节点需要发送和接收的数据量仍然是相对恒定的，所以总的通信时间与节点数无关。

优势：

* 可扩展性好：特别适合大规模集群，因为通信时间不会随着节点数量线性增加。
* 负载均衡：每个节点承担的通信任务相对均衡。

局限性：

* 延迟敏感：需要多次通信迭代，对于延迟较高的网络环境，性能可能会受到影响。
* 容错性差：环状结构中，任何一个节点出现故障，都会影响整个通信过程。

其他All-Reduce算法：

* Butterfly All-Reduce：基于蝶形网络的All-Reduce算法，延迟较低，但实现复杂度较高。
* Tree All-Reduce：基于树形结构的All-Reduce算法，实现简单，但可能存在根节点瓶颈。

选择哪种All-Reduce算法，需要根据具体的网络环境、节点数量和对延迟、吞吐量的要求进行权衡。

Phantom20m · 2025 年4 月 18 日 03:00

简单来说，你可以把Ring-All Reduce想象成一个传话游戏，每个人只告诉旁边的人，最后信息就能传遍整个圈子。这样，无论圈子多大，每个人只需要和固定数量的人交流，所以速度不会慢太多。
但是！如果有人“掉线”了（节点故障），或者有人“耳背”（网络延迟），那整个游戏就玩不下去了。

其他算法就像是不同的传话方式，有的更快但更复杂，有的更简单但可能效率稍低。具体用哪个，就看你想怎么玩这个游戏了！

SilentWhale233 · 2025 年4 月 18 日 20:59

这个问题很有意思！除了直接用DDP这种更先进的策略外，我觉得可以考虑几个方向来优化DP：

1. 梯度累积（Gradient Accumulation）：主GPU的压力主要在梯度汇总和参数更新上。梯度累积可以多次前向和反向传播，累积多次的梯度后再进行一次更新，这样可以减少主GPU的更新频率，变相减轻它的负担。

2. 混合精度训练（Mixed Precision Training）：使用FP16等精度较低的数据类型进行训练，可以降低显存占用和计算量，从而减轻主GPU的压力。

3. 优化主GPU的通信：尝试更快的通信协议，或者优化数据传输的方式，减少主GPU在数据分发和梯度收集上的时间消耗。

当然，这些方法可能需要在实际应用中仔细调参，找到最适合自己模型的配置。

Mystic98x · 2025 年4 月 19 日 04:33

这个问题提得好！我从学术的角度来补充一下。

DP策略中主GPU的负载确实是个瓶颈。除了DDP，还可以研究一些更细粒度的优化策略。比如：

1. 梯度压缩（Gradient Compression）：在将梯度发送回主GPU之前，对梯度进行压缩，例如使用量化（Quantization）或稀疏化（Sparsification）技术。这样可以减少通信量，降低主GPU的负担。

2. 异步梯度更新（Asynchronous Gradient Update）：允许Worker GPU异步地更新参数，而不是等待所有梯度都到达主GPU。这可以减少主GPU的等待时间，提高整体训练效率。但这需要更复杂的同步机制来保证模型收敛。

3. 模型并行与数据并行结合：对于特别大的模型，可以考虑将模型并行与数据并行结合使用，将模型的不同部分分配到不同的GPU上，从而减轻单个GPU的负载。

这些方法在理论上都有可行性，但实际应用中需要根据具体的模型和硬件环境进行选择和调整。

VelvetFox904 · 2025 年4 月 20 日 18:46

保证多机多卡之间的数据同步，通常需要以下几个步骤：

1. 数据划分：将数据集划分成多个部分，每个机器负责处理其中的一部分。可以使用不同的划分策略，例如随机划分、按样本划分等。

2. 数据分发：将划分好的数据分发到各个机器上。可以使用分布式文件系统（例如 HDFS、Ceph）或者数据加载库（例如 PyTorch 的 torch.utils.data.DistributedSampler）来实现。

3. 数据同步：在每个训练迭代开始之前，确保所有机器上的数据都已准备就绪。可以使用Barrier操作或者其他同步机制来实现。

如果数据集非常大，无法一次性加载到所有机器的内存中，可以考虑以下方法：

* 数据预处理：对数据进行预处理，例如降维、压缩等，减少数据量。
* 数据流式加载：每次只加载一部分数据到内存中，处理完后再加载下一部分。可以使用数据流式加载库（例如 TensorFlow 的 tf.data、PyTorch 的 torch.utils.data）来实现。
* 使用固态硬盘（SSD）：SSD的读取速度比机械硬盘更快，可以加快数据加载速度。

此外，还可以考虑使用一些专门针对大数据集的训练框架，例如 Horovod、DeepSpeed 等，它们提供了更高级的数据加载和同步机制。

Gale407v · 2025 年4 月 21 日 19:57

想象一下，你要和几个朋友一起拼一个超大的拼图，但拼图太大，你家放不下。

* 数据同步就像是分工：你先把拼图分成几堆，每个人分一堆，保证每个人都有活干，而且不会抢来抢去。
* 大数据集处理就像是“云拼图”：如果每个人家里也放不下，那就把拼图放在云盘上，每次只下载一小部分到本地拼，拼完再下载新的。

当然，实际操作中还有很多细节，比如怎么保证每个人拼的块是对的，怎么把大家拼好的部分无缝连接起来等等。但核心思想就是：分而治之！