COAT,一种新的FP8训练方法,可降低40%显存占用,将训练速度提高1.4倍,且不影响模型精度。
原文标题:FP8训练新范式:减少40%显存占用,训练速度提高1.4倍
原文作者:机器之心
冷月清谈:
COAT 的核心在于解决了 FP8 量化优化器状态时,量化范围未被充分利用导致误差大的问题。他们引入动态范围扩展技术,使量化范围与 FP8 格式对齐,从而显著减少量化误差。
此外,COAT 还对激活值进行了优化。针对非线性层占用大量内存的情况,COAT 采用混合粒度 FP8 精度流,在不同层使用不同的量化粒度,平衡精度和效率。通过直接保存 FP8 格式的激活值,减少了额外的量化操作和内存占用。
实验结果表明,COAT 在使用 4 张 H100 训练 Llama-2-13B 模型时,实现了1.54倍的内存缩减和1.43倍的训练加速。同时,COAT 几乎不影响模型精度,在多个任务中都保持了与 BF16 训练相当的性能。
怜星夜思:
2、动态范围扩展技术是如何解决FP8量化误差问题的?有没有其他方法可以解决这个问题?
3、除了Llama模型系列,COAT还能应用于其他类型的模型吗?比如CV领域的模型?
原文内容
-
论文标题:COAT: Compressing Optimizer States and Activation for memory efficient FP8 Training
-
论文链接:https://arxiv.org/abs/2410.19313
-
开源代码:https://github.com/NVlabs/COAT
