PyTorch DistributedDataParallel 多卡训练结果变差

2023-01-31 19:09:39 +08:00

yiyi1010

本想使用多卡训练，训练结果应该会更加好，但是我发现使用三张 3090 训练，网络模型不收敛，这是因为学习率的原因吗？

1974 次点击

所在节点

11 条回复

Ricardoo

2023-01-31 19:21:22 +08:00

正常。
使用多卡后一般需要调小学习率，也有可能不需要调，比较玄学。

clemente0620

2023-01-31 19:34:25 +08:00

按卡倍数降低学习率

leimao

2023-01-31 23:46:40 +08:00

DDP 本质就是增加了 Batch Size 。Batch Size 变了，模型可能需要就 Training Recipe 进行微调。

hsfzxjy

2023-02-01 00:28:11 +08:00

调学习率，以及注意 BN

yiyi1010

2023-02-01 09:03:13 +08:00

对 DDP 增加了 batch size ，不是应该按照卡倍数增加学习率吗？

yiyi1010

2023-02-01 09:03:44 +08:00

@Ricardoo 这那还能调吗

yiyi1010

2023-02-01 09:04:23 +08:00

@hsfzxjy 请问 BN 是有什么影响吗

hsfzxjy

2023-02-01 09:33:29 +08:00

@yiyi1010 BN 要换成 SyncBatchNorm ，不然统计量不同步

yiyi1010

2023-02-01 10:08:32 +08:00

@hsfzxjy 有道理。谢谢你，我去试试

yiyi1010

2023-02-01 10:09:35 +08:00

看一般是需要线性提升 leanring rate

yiyi1010

2023-03-12 22:21:38 +08:00

@hsfzxjy 你说 layernorm ，而不是 BN ，也要替换成 Syn 的版本是吗

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.