我这显卡是不是坏了

37 天前
 sty
$ nvidia-smi
Unable to determine the device handle for GPU0000:01:00.0: Unknown Error

之前用一个 7b 的模型做推理,连续用了 20 多个小时。后面就不间断出现这个错误了,但是一重启就好了,是不是显卡硬件坏了?

2041 次点击
所在节点    程序员
17 条回复
GoRoad
37 天前
不是工业级的显卡,长时间用可能会出现各种问题,要是重启后能正常,那大概率还没坏 可能是过热之类了
sty
37 天前
@GoRoad 一周多了,每天都得重启,更新了一下驱动也没用。有没有可能是某些区块坏了,要跑一段时间才能碰到坏的区块
DigitalG
37 天前
“不间断”,是间隔多久?重启就好的话,我遇到过,有可能是 nvidia driver 自动更新导致的。可以看看 driver 版本是不是比那了,或者去系统日志里看看。再配置关闭自动更新。
HojiOShi
37 天前
用的啥显卡,是不是矿卡啊。
sty
37 天前
@DigitalG 坏了之后,driver 我自己更新过了。在使用的时候没报错,比如我跑 3 个小时的训练,能跑完。反而是空闲的时候就报上面这个错。一天 1 到 2 次吧,每天都有
sty
37 天前
@HojiOShi 3090ti ,买了三年多了不咋用,最近 3 个月开始用的
cinlen
37 天前
dmesg 看看内核日志有无异常
rickiey
37 天前
监控下温度,频率,显存这些数据,还有功率
sty
37 天前
@cinlen [ 2.018550] [drm] [nvidia-drm] [GPU ID 0x00000100] Loading driver
[ 369.857712] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 493.216012] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 1537.808965] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 1764.689999] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 1766.588211] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
[ 1775.551022] NVRM: GPU 0000:01:00.0: Failed to enable MSI; falling back to PCIe virtual-wire interrupts.
老哥帮忙看下
sty
37 天前
@rickiey nvidia-smi
```
Mon Aug 12 15:30:33 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.107.02 Driver Version: 550.107.02 CUDA Version: 12.4 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3090 Ti Off | 00000000:01:00.0 Off | Off |
| 30% 41C P0 N/A / 450W | 1MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
```
cinlen
37 天前
在正常和异常时分别执行一下 lspci -s 01:00.0 -nnDk 命令看看这张显卡的驱动名是什么。 我有一张 nvidia telsa 温度飙到 90 摄氏度都没出现过你这个问题。
sty
37 天前
@cinlen 正常情况下 lspci -s 01:00.0 -nnDk
0000:01:00.0 VGA compatible controller [0300]: NVIDIA Corporation Device [10de:2203] (rev a1)
Subsystem: Device [7377:2000]
Kernel driver in use: nvidia
libkmod: kmod_config_parse: /etc/modprobe.d/blacklist-nouveau.conf line 1: ignoring bad line starting with 'cklist'
Kernel modules: nouveau, nvidia_drm, nvidia
daishuge
37 天前
圈外人,想问一下这种能不能走保修,如果是正规平台买的话,谢谢
lsp7572
37 天前
搜了下网上有人碰到,比如电源问题啥的,这个你自己搜索过,或者尝试过没,从问题没看出来试过
sty
37 天前
@lsp7572 我能搜到的软件解决办法都试过。这台机器在机房,走流程挺麻烦,如果软件层面解决不了,那就报硬件流程去了
huaijin
37 天前
设备管理器,看看显卡驱动是不是损坏了
sweelia
37 天前
2080ti 改 22g ,遇到训练几天就中断,提示通讯/io 相关的异常,内核驱动进入了异常状态,只能重启恢复。
大聪明的我以为是驱动兼容性问题,写了个脚本自动重启,自动恢复训练。
然后过了 2 个多星期驱动彻底不认卡了。仔细检查是显存虚了,拆下重焊恢复正常,然后限制最高功率,加散热,目前几个月没再遇到需要重启的情况

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1064362

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX