LLM 分布式训练技术

LLM 单机训练的瓶颈

LLM越来越大，单机显存不足
训练速度不足

分布式并行训练方向

LLM可以从三个角度来进行分布式拆分：

数据并行（应用最广）
模型并行/流水线并行/层间并行（不同叫法）
张量并行/层内并行（不同叫法）

甚至可以三种并行方式同时应用，最大化利用显存和加速训练。

数据并行

将原始数据分割成不同的不想交子集，不同计算设备分别处理子训练集。由于每个计算设备都独立存储着完整的模型副本，因此各个模型反向传播得到的梯度需要汇总求平均。Transformer架构的每个算子的前后向传播都只依赖于单个数据，而不是训练批次，所以数据无论怎么划分实现并行不会影响梯度的计算逻辑。

这种并行方式的各个计算设备不涉及同步问题，加速比最高，但是每个设备上都需要保留完整的模型参数，所以训练大型LLM依旧不够实用。

通讯量分析：

传入阶段： $(N - 1) \frac{\phi}{N}$

流水线并行/层间并行/模型并行

如果单个GPU无法存储整个模型的参数，不如将模型也拆了吧。不同计算设备存储着模型的不同层，可以有效减少单个设备的模型存储占用空间。

流水线并行的思路来源于CPU，那么同样也会有CPU中遇到的并行气泡问题。在热身阶段，下游计算设备需要等待上游计算设备的结果，这种等待造成的资源浪费就是并行气泡。

仔细分析上图，可以发现在计算设备4反向传播 $B_{44}$ , 就无法进行前向传播 $F_{54}$ (图中没有)，这就是单个计算设备由于同时负责前向和后向传播导致的并行气泡。

Megatron中提出了将前向和后向分离的解决方案，减少了并行气泡，但是流程有些看不懂，这里挖个坑。

张量并行

张量并行的思路是拆分单个算子，也就是层内拆分与并行。由于算子之间千差万别，需要单独分析拆分可行性和提供实现方案，比较头疼，并没有流水线并行那么通用。

仅仅分析在Transformer架构中，算子主要包括：嵌入式表示Embedding，矩阵乘MatMul，交叉熵损失Cross Entropy Loss

如果想要拆分Embedding，就只能沿着word_size的维度切割并分放到不同计算设备中。

整个Embedding的大小如果为 $640000*5120$ , 采用FP32表示方式则占用空间 $640000 * 5120 * 4 / 1024 / 1024 = 1250MB$ , 反向传播的梯度同样占用 $1250MB$ , 要是使用的是Adam类优化器，一阶动量和二阶动量又各占 $1250MB$ , 总共就占用了 $5GB$ 。如果沿着word_size维度拆分为两个大小相同的Embedding, 那单个设备仅占用 $2.5GB$ , 比较划算。