汇报个事兄弟们,消费级 ECC,家用 NAS 一年工况良好

2023-09-20 03:39:01 +08:00
 LeeReamond

去年 12 月配了台 NAS ,顺带跑一些数据和计算服务,CPU 占用率不低但网络 IO 方面不是太大。今天反应过来已经接好十多个月了,方案是消费级 ECC + windows 系统(非 server ),意料之外地稳定,7*24 运行从未关机,服务一直可以瞬时响应,也没出过啥内存泄漏之类的问题。

总之就是理论上没问题的东西,实际跑了跑也没什么玄学问题。给有同样需求的兄弟们一个参考。

ECC 是好文明诚不欺我,可惜现在主流厂商都在砍

4708 次点击
所在节点    NAS
20 条回复
Zinzin
2023-09-20 03:44:14 +08:00
不懂就问,“消费级 ECC”是啥?
(真不懂
shinession
2023-09-20 08:15:00 +08:00
@Zinzin ecc 内存, 现在 ddr5 本身就带 ecc 了
yyysuo
2023-09-20 08:33:59 +08:00
普通内存也没问题吧。
locoz
2023-09-20 08:38:09 +08:00
然而你拿非 ECC 内存一样可以 7*24 不关机、服务一直可以瞬时响应、不出现内存泄漏问题…
jrtzxh020
2023-09-20 08:42:50 +08:00
稳定运行和内存应该很少关系吧。。除非用斋条
xlsepiphone
2023-09-20 09:18:46 +08:00
我觉得 Linux 可能比内存条的作用更大。
okzy520
2023-09-20 09:23:24 +08:00
其实不用 ecc 也没啥 我自用 z77 平台还是 ddr3 呢跑 pve 还不是 24 小时开着
abc0123xyz
2023-09-20 09:24:31 +08:00
非 ecc 问题也不大
最重要的是:不停电一般不会出问题
totoro625
2023-09-20 09:31:44 +08:00
@shinession #2 最近在研究 ECC ,看到这样的解释:(来源: https://ngabbs.com/read.php?tid=32473178
参考 Wiki: https://en.wikipedia.org/wiki/DDR5_SDRAM

普通 DDR5 的 on-chip ecc ,跟 ECC 内存有本质的区别:

ECC 内存本质上是多传输给系统 1/8 的数据,用于纠偏和报警; ECC 不论是内存内部错误还是传输时发生干扰导致的错误,系统都能发现,这项功能需要 CPU 的支持
普通的 ddr5 的 on-chip ecc ,传输给系统的数据不变,跟普通内存一样; ECC 只修正自身错误(而且是因为自身缺陷导致的错误),无法修正传输时发生干扰导致的错误,这项功能不需要 CPU 的支持
(原话:所有 DDR5 芯片都具有芯片内 ECC ,在将数据发送到 CPU 之前检测并纠正错误。但是,这与内存模块上带有额外数据校正芯片的真正 ECC 内存不同。DDR5 的纠错是为了提高可靠性并允许使用更密集的 RAM 芯片,从而降低每个芯片的缺陷率)

总而言之,把普通 DDR5 的 on-chip ecc 理解为给 ddr5 内存本身的问题擦屁股用的,根本就不是什么值得吹捧的卖点
就像 SSD 从 slc 到 mlc 到 tlc 到 qlc ,使用的纠错算法越来先进,但是纠错算法不是代表 SSD 多牛,而是实际质量变差了,不得不加上纠偏算法
laminux29
2023-09-20 09:46:46 +08:00
纯 ECC 没啥用,关键要 RECC 自纠错 + OS 内存条故障事件推送到手机来提醒及时更换。
ProphetN
2023-09-20 09:47:46 +08:00
不上 ZFS 这种对内存要求高的存储系统,ECC 的区别很难体现出来。
ltkun
2023-09-20 10:20:12 +08:00
那我也汇报一下 ddr4 没有 ecc 已经稳定运行第五个年头了 目前文件系统改 zfs 了 不过内存还是 ddr4
Augix
2023-09-20 10:56:55 +08:00
家用环境 UPS 比 ECC 重要,ECC 一年都未必遇得到一个错误。

https://www.bilibili.com/video/BV1AW4y1y796/
libook
2023-09-20 11:03:37 +08:00
我 18 年配的 NAS 用的普通内存,跑到现在没有因为内存出过问题。

另一台服务器 Win10 基本每周都会出现莫名其妙问题,但重启可以解决,所以怀疑是系统内存 Bug 。后来换了 Debian ,就稳定很多了。

之前看到一个资深做定制 NAS 的商家说过,普通家用负载一年可能都不会出一次内存错误,所以一般也不会给客户推荐 ECC 内存。即便出了问题,大不了程序闪退,重新启动就好了。除非是那种出内存错误会导致其他严重连带问题的情况,比如文件系统。

看到有人提到了 DDR5 的 ECC ,这个也让我困惑了一阵子,后来才知道因为 DDR5 硬件本身技术难度,导致错误没法降到可以让人接受的程度,所以内置了某种 ECC 机制来拉高可靠性的,但这个顶多了是提升到了 DDR4 的可靠性,追求更高可靠性可能还是需要企业级 ECC 。
Niphor
2023-09-20 13:36:35 +08:00
考虑 ECC 不是因为 二手超便宜么...
huoshen
2023-09-20 14:07:02 +08:00
要不锡箔纸把系统包起来,然后接地?
busier
2023-09-20 14:26:28 +08:00
内存泄漏与否,看程序员水平!跟是不是 ECC 无关!
matepi
2023-09-20 17:06:12 +08:00
我都是用自己大奶机淘汰下来的非 ecc 机器控制跑手机集群
大约 11 年,迄今为止出现的故障:

1 、最老的一台机龄 15 年的机器主板网卡应该有点小故障,约 3 个月会断一次网,对于无头设备来说挺不友好的。设置了操作系统快捷键+脚本重启解决。
2 、次老的一台机龄 14 年的笔记本在其作为主存储节点的第 3 年 HDD 损坏,磁头打盘应该是马达挂了。后续换用台式机做主存储节点并改用 SSD ,至今没有硬盘损坏。

其他从未出现过任何内存故障、死机故障等问题,包括手机集群大量使用 USB 端口,USB 工作也没出现过问题。

使用的包括联想、acer 的笔记本; hp&dell 的洋垃圾准系统+各种二手配件;自己搭的组装机大奶机淘汰。都没啥大问题。

我感觉现代计算机的质量 7x24 还是基本可以的。倒是自己最新的一台联想刃系列大奶机,作为自己游戏机和平时做 console 形式的节点,7x24 小时 3 年 2 个月之后,一次关闭后再起不能,主板损坏。电脑不关就不会坏啊!
GrayXu
2023-09-20 17:29:29 +08:00
瞬时响应 内存泄露和 ECC 有什么关系。。
nuk
2023-09-21 03:20:40 +08:00
遇到过好几次,都是因为用的便宜条子,现在只要莫名系统崩溃,游戏崩溃,就直接先跑一套 memtest 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/975376

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX