没学过强化学习,现在 M1 训练性能已经这么强了吗?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 1272 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://zhuanlan.zhihu.com/p/384531874
按作者的理论,M1 已经吊打 V100 了,10%价格获取 200%性能,简直离谱

9 条回复 • 2021-07-04 13:26:11 +08:00

microyu

2021-07-03 11:39:27 +08:00

真有这么强吗？做强化学习的表示心动了

dayeye2006199

2021-07-03 13:39:52 +08:00

这得放个代码 peer review 一下才好，否则有种搞个大新闻的感觉。
有些简单的算法训练，GPU 构不成性能瓶颈，V100 这么大的显存都是空置，这时候再去比较谁训练快没啥意义。

takato

2021-07-03 14:00:24 +08:00

取决于任务，有些任务是 env 密集，会使用更多的 CPU，这种情况下主要瓶颈的确在于把数据从内存放进显存的过程。。

还是看用来干嘛。。

Issacx

2021-07-03 14:22:14 +08:00

文章说得很含糊，听起来是因为内存在 M1 内减小了 CPU 和 GPU 的通讯开销导致采样速度提升。不太懂 PPO 的细节，这是一个具体的模型还是优化框架？猜测可能是网络比较小，GPU 提升不明显。

felixcode

2021-07-03 14:30:09 +08:00 via Android

不放出用例，就放个结果，无法重现，不像是专业从业者的做事水准。

microyu

2021-07-03 14:43:42 +08:00

PPO 是一个算法，网络只有几层全连接层，GPU 确实不是瓶颈，主要还是和环境交互开销比较大

Cielsky

2021-07-03 14:48:45 +08:00

发这种文章，不如跑几个模型说服力高

ZRS

2021-07-04 13:22:43 +08:00

特殊场景而已，也就 RL 可以这么玩

ZRS

2021-07-04 13:26:11 +08:00