RatioPattern
2022-10-05 23:28:39 +08:00
不跟垃圾人浪费时间,我的确不是专业出身,但我折腾矿卡有几年了也有部分此行业从业经验,简单说明下:
1.他自己是个例不具备普遍性,且可能直接利益相关,故直接使用公众号扯淡之类的词汇攻击正常讨论。就算不懂技术,单从厂家 RMA 均采取拒绝矿卡保修策略也可以看出,矿卡维修成本高难度大,间接说明老化 /损坏程度较日常用卡更甚,要知道这是在早期矿主往往直接工厂加价批量拿货且与厂家关系明显优于消费者个人的前提下。
2.电阻、电容和电感,温度变化对其工作特性和寿命的影响是电子专业就业必修课,举例当温度升高时,二极管的正向特性左移,反向特性下移。一般地,在室温附近温度每升高 1℃二极管正向压降会减少 2 到 2.5mV ;而温度每升高 10℃,反向电流增大一倍。
又比如目前电子产品内常见的固态电容在摄氏 105 度高温下,固态电容和液态电容的寿命同样为 2000 小时(83 天),但温度越低固态电容寿命将会比液态电容有更长的寿命,摄氏 95 度、85 度、75 度、65 度下其寿命将会是 1.5 倍、2.5 倍、4 倍和 6.25 倍。在 65 度温度情况下,固态电容的寿命约为 20 万小时(超过 22 年)。
不要对矿场的散热和机器运行环境有过多期待,即使矿场温控无尘环境有所改善,也往往是为了更好的超频 GPU 显存来压榨出更高的算力,这最终还是会反应到矿卡的老化加速上。矿场第一成本电费,第二成本矿机。大矿厂规模更大,更有动力去极致优化在机房散热电能消耗与坏卡下线故障率上找一个能接受的平衡点。
3.现代 GPU 有类似固态坏块控制的机制,当个别计算单元不稳定或者连续出错时可以驱动上降频至稳定运行频率 /功耗做软屏蔽,但是你相信我这个时候你如果在用卡你是能感觉出来的,哪怕看帧数是对的。此外光刻同一块 die 上出产的晶片量产存在出厂差异是公认的,在出场测试后会进行软硬屏蔽不当的 CU(shader)组,这些 shader 组被屏蔽的原因多种多样,但主要为片上短路 /预设频率下不能稳定运行
4.搜索引擎能搜到的常规压力测试无法覆盖所有情况(包括常见的 GPUZ 甜甜圈,3dmark ,hwinfo64 看错误率,甚至包括厂家出厂测试软件如 nvida 的 mats 与 AMD 的 tserver,鲁大师不具备太高参考性),至今你仍能够见到工业渲染需求,大家拿来机器仍然是 3dmark 跑完分之后找个极端复杂的场景或者模型挂在那面连续 24 小时以上然后检查渲染结果是否与预期完全一致来确认稳定性.
大部分普通用户拿到卡之后并不会拆开看里面更换了什么比如供电显存,也不会挨个检查每路供电模块变化预估老化程度,也不会连续 24 小时满载跑专业渲染工具并且比对渲染结果来确认稳定性,能够自己换下硅脂散热完好无损装回去的已经算较了解显卡的用户。相信你接触过足够多的矿卡之后就明白甜甜圈 30 分钟一小时并不能反映问题,3dmark 也是一样。矿卡明着的问题是宝贝,暗着的问题是计算错误。也许游戏用户还好,一帧两帧看不出来,但工业用最终的渲染结果比对更能反应问题,既测试了 GPU 计算单元的准确性又测试了显存。
到此为止,出口成脏不值得交流