用来计算神经网络的组装机器的 1080ti 显卡用一阵就掉了

2017-12-18 09:00:20 +08:00
 zhiqiang

我们自己组装机器,插了 3 块 1080ti 显卡,用来计算深度神经网络,性能还不错,基本跟一台用 P100 的服务器计算性能差不多。

可是有个烦心事情,用一阵之后,显卡就会少,比如 nvidia-smi 只能看到两块显卡,另外一块显卡就不见了。重启机器,显卡会回来。

机器用的 i9 7900x CPU,128G 内存。操作系统是 ubuntu 16.04 。

有人碰到类似情况吗,怎么解决?

9612 次点击
所在节点    Ubuntu
33 条回复
7654
2017-12-18 09:04:39 +08:00
电源功率如何,有没有虚表
DreamCMS
2017-12-18 09:05:49 +08:00
电源问题,显卡独立供电。
dcll222
2017-12-18 09:24:25 +08:00
7900x 和三张 1080ti 大概得一千瓦供电才能长时间稳定运行
lonelygo
2017-12-18 09:30:55 +08:00
1080Ti,标的功率 275W,你还要留点富裕;
跑训练,估计硬盘也不少于两块,CPU 也不太差,这些都要单独用电;
建议电源不低于 1500W,最好直接上 2KW。
8355
2017-12-18 09:43:19 +08:00
我也觉得是电源的问题. 买个好点的电源吧. 高端海韵 全汉 海盗船 EVGA 都可以.
wecan
2017-12-18 09:54:31 +08:00
长期运行的话 1600w 要是要的。一般就是电源和散热
realpg
2017-12-18 10:20:10 +08:00
有动手能力么 如果有 淘宝买块 30 的神电源 买三个显卡 pin 带长线接头 自己焊上接上 美滋滋
挖矿机我就是这么干的
mfergg
2017-12-18 10:44:16 +08:00
这电脑要是用来玩游戏就爽了
turan12
2017-12-18 10:53:36 +08:00
建议上双电源。一个电源专门为显卡供电,另一个电源为 CPU 和板卡供电。
zhiqiang
2017-12-18 11:06:22 +08:00
楼上各位,我们的电源是 1600W 的,型号是:振华( SUPER FLOWER ) 额定 1600W LEADEX T。按道理应该足够了的。
zhiqiang
2017-12-18 11:07:47 +08:00
@turan12 电源功率足够,也要分开两个电源吗?
z5864703
2017-12-18 11:13:52 +08:00
@zhiqiang 要看 12V 供电
focusheart
2017-12-18 11:16:58 +08:00
请教一下,主板用的是哪一款呀?
zhiqiang
2017-12-18 11:25:20 +08:00
@focusheart 华硕( ASUS ) PRIME X299-DELUXE
Thiece
2017-12-18 11:26:07 +08:00
@zhiqiang 首先,如果你的显卡是公版的 250W,如果是非公版额定功率大概在 265W 左右,但是 NVIDIA 会有一个峰值功率墙,一般是 20%,换算下来就是 318W。你有 3 块也就是 954W。7900X 的额定功率是 140W,我不知道你有没有超频,如果超频了,CPU 的功耗会提的比较多,我就当你超频了 200W 吧。振华这块电源 12V 输出是 133.3A ,也就是 1600W 是完全没问题。那你需要注意一下是不是显卡散热的问题了,10 系的温度墙,控制温度是 83°C,上限温度是 92°C。不仅仅的 GPU 的核心温度需要注意,显存的散热和 VRM 散热。公版卡 VRM 散热是没有覆盖到的。解决方案也是有的,上水冷。
Thiece
2017-12-18 11:29:31 +08:00
X299-DELUXE 没有额外的 PCIE 供电,不排除是这方面的原因
daydaysay
2017-12-18 11:36:16 +08:00
和楼主出现一样的情况,但不是跑神经网络。 应该不是电源问题。
rogerchen
2017-12-18 11:39:08 +08:00
不太可能是电源的问题。。。很有可能是 BIOS 的问题,FYI https://devtalk.nvidia.com/default/topic/1010960/cuda-missing-gpu-/
cevincheung
2017-12-18 11:47:39 +08:00
人工智能自动卸载了一块显卡当备用。
zhiqiang
2017-12-18 12:01:42 +08:00
@Thiece 现在三块 GPU 的供电都是直接连的电源。你提到的主板额外 PCIE 供电,具体是指什么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/415564

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX