损失缩放:在(尤其是 FP16 等低精度)训练神经网络时,把损失值乘以一个缩放因子,以便放大反向传播得到的梯度,减少数值下溢(underflow)带来的梯度变成 0 的问题;之后再按相同因子把梯度缩回去以保持更新量正确。常见有静态损失缩放与动态损失缩放两种。
/lɔs ˈskeɪlɪŋ/
Loss scaling can prevent gradients from underflowing in FP16 training.
损失缩放可以在 FP16 训练中防止梯度发生下溢。
With dynamic loss scaling, the scale is adjusted to avoid overflow while keeping mixed-precision training stable.
使用动态损失缩放时,缩放因子会被自动调整,以避免上溢并保持混合精度训练的稳定性。
loss 原指“损失、失去”,在机器学习语境中引申为“损失函数值(衡量误差的指标)”;scaling 来自 “scale(缩放)”,表示按比例放大或缩小。合起来的 loss scaling 就是“对损失值做缩放”,以改善数值计算的稳定性(尤其在低精度浮点数中)。