2025_NIPS_FP4 All the Way: Fully Quantized Training of LLMs
文章核心总结与翻译
一、主要内容
该研究首次实现了大型语言模型(LLMs)的全量化训练(FQT),采用以4位浮点数(FP4)精度为主,对权重、激活值和梯度进行量化,并在高达1万亿token的数据集上完成训练。研究重点探索了FP4训练的关键设计选择,包括块大小、缩放格式和舍入方式,发现NVFP4格式(16个FP4值为一个块,采用E4M3格式存储缩放因子)效果最优;提出了拆分舍入策略(前向传播用就近舍入,反向传播和更新过程用随机舍入)以提升训练稳定性;推导并验证了量化训练的临界阈值(当全精度梯度标准差低于量化噪声标准差的√3倍时,训练效果显著下降);最后通过量化感知微调(QAF)阶段弥补了FP4与BF16基线模型的训练损失差距。
实验中,研究者在256台Intel Gaudi2加速器上成功训练了70亿参数的LLaMA2模型,经过QAF阶段后,模型在下游任务上的性能与BF16基线模型相当,证实了FP4全量化训练在大规模LLM训练中的实用性和高效性。
二、创新点
- FP4格式优化:系统研究了FP4的块大小和缩放格式,发现16个元素的块大小性价比最优,E4M3缩放格式(NVFP4采用)在动态范围和精度间达到最佳平衡,验证了NVIDIA Blackwell架构的硬件设计合理性。
- 拆分舍入策略:首次提出前向传播用就近舍入(RtN)、反向传播和参数更新用随机舍入(SR)的组合方案,相比单一舍入方式显著提升了训练稳定性和模型精度。
- 精度转换阈值理论:推导并







