Weight decay(权重衰减)是机器学习/深度学习中的一种正则化方法:在训练时对模型参数(权重)的大小施加惩罚,促使权重变小,从而降低过拟合、提升泛化能力。最常见形式与 L2 正则化密切相关(但在一些优化器中也有“解耦权重衰减”等实现方式)。
/ˈweɪt dɪˈkeɪ/
Weight decay helps prevent overfitting.
权重衰减有助于防止过拟合。
When training a neural network with AdamW, using decoupled weight decay can improve generalization without interfering with the gradient-based update.
用 AdamW 训练神经网络时,采用“解耦”的权重衰减可以在不干扰基于梯度的更新的情况下提升泛化效果。
Weight 原意是“重量”,在机器学习里借用来指“权重/参数”;decay 意为“衰减、逐渐变小”。合起来的字面含义是“让权重逐步衰减”,对应训练过程中通过惩罚项或额外更新把参数往更小的方向推,从而让模型更“简单”。