海量小文件存储在单个文件系统上并通过 NFS 共享，是否会显著增加数据损坏的几率？(´･_･`)

2016-06-15 14:23:30 +08:00

helixzz

背景：公司有一批自己组建的服务器用于存储实验数据，约有 30~40 台左右的工作站会通过挂载 nfs 共享来读写上面的文件（ nfs 挂载参数： hard ， rw ， sync ）。数据大多是海量的小文件（文件类型 json 、 jpg ，数据量甚至大的时候会把 inode 用光），每台服务器的 RAID 阵列上是单个 ext4 文件系统，容量从 20TB 到 40TB 都有。

硬件环境： Supermicro X10 系列主板， E3-1231v3 ， 16GB ECC RAM LSI 9260-8i 阵列卡， 12x 4TB WD RE 系列企业级 SATA 硬盘， RAID5+HotSpare 或者 RAID6 。

软件环境： Ubuntu 12.04 LTS ， Linux 3.5.0-23-generic

————————

现在碰到的非常棘手的问题就是，服务器搭起来后，存了一二十 TB 数据，然后就开始大面积出现文件系统错误。比如 df -lh 会看到已用空间和可用空间不正常：

admin@nas1:~$ df -lh

Filesystem Size Used Avail Use% Mounted on

/dev/sda1 205G 31G 164G 16% /

/dev/sdb1 40T -308T 346T - /mnt/nas1

在 dmesg 里也有大量关于文件系统的错误：

[60467.013963] EXT4-fs error (device sdb1): ext4_mb_generate_buddy:741: group 12736, 0 clusters in bitmap, 4294955217 in gd

[60467.014350] EXT4-fs error (device sdb1): ext4_mb_generate_buddy:741: group 12739, 0 clusters in bitmap, 4294955232 in gd

[60467.192619] EXT4-fs error (device sdb1): ext4_mb_generate_buddy:741: group 12752, 10889 clusters in bitmap, 4294958419 in gd

以及，研发会报告说部分文件夹变成了文件，或者读写文件时报错提示 Input/Output Error 。

————————

我们在工作站上对单盘也有同样的使用方式（ 2TB 或者 3TB ，格式化成 ext4 ，开 NFS 共享给其他几十台机器），但很少碰到类似情况。现在不知道是因为单个文件系统太大，还是 RAID 卡的原因，还是因为大量小文件被多机器同时读写？

不知道有没有相关经验的童鞋指点一下。

4086 次点击

所在节点

13 条回复

fcicq

2016-06-15 14:33:27 +08:00

目测文件系统应该已经坏了, 换新内核再有问题应该往内核 bug 方向考虑了.

helixzz

2016-06-15 14:54:20 +08:00

@fcicq 几台不同内核版本的机器都出现这个问题。有 3.13.0-85-generic ， 3.5.0-23-generic ， 3.13.0-74-generic 等等。这么大体量的文件系统，而且是大量小文件， rsync 只有几 MB/s 的速度， fsck 一星期也修不完…都不知道这些数据该怎么处理了。目前我们正在一点一点拷贝最重要的部分到独立插几块硬盘的 PC 上，先做点备份……

fcicq

2016-06-15 15:12:07 +08:00

@helixzz 所以这种配置的系统应该把内存加到 64G 上 Solaris 跑 ZFS RAID-z2. 现在除了内存少了一点以外正是 ZFS 的推荐配置.

fcicq

2016-06-15 15:19:40 +08:00

@helixzz 另外你不用开发版内核你就没有机会上 LKML 反馈问题. 文件系统已经坏了就没法报告, 不是开发者想去查问题也根本没有头绪.

helixzz

2016-06-15 15:30:26 +08:00

@fcicq 请问在海量小文件的场景下 ZFS 的性能怎么样呢？因为涉及到冗余和校验，想必还是挺吃 CPU 的…然后我们又是开 nfs 给一大堆机器同时使用，可能有大量的随机读写。另外主要是自己不熟悉，不知道 ZFS 与场景的硬件 RAID 方案比可靠性和维护的方便程度有没有什么差别。

fcicq

2016-06-15 15:32:46 +08:00

@helixzz ZFS 的 RAID-z 比民用级的一切都好. 硬 RAID 是自讨没趣.

xbb7766

2016-06-15 15:33:24 +08:00

这 df 信息文件系统肯定问题大了。
以前就听说 ext4 有个 16TB 的坎。现在不知道有改善没。
那么大的卷最好还是考虑别的文件系统。

https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/6/html/Performance_Tuning_Guide/s-storage-fs.html

https://m.reddit.com/r/DataHoarder/comments/1uxg3r/til_cant_grow_ext4_past_16tb_without_o_64bit/

helixzz

2016-06-15 16:09:46 +08:00

@fcicq 感谢，我研究一下 ZFS 。

helixzz

2016-06-15 16:13:12 +08:00

@xbb7766 关于 16TB 的坎，有什么历史渊源吗？我知道 ext3 是最大只支持 16TB 。但把分区格式化成 ext4 的时候，实在是顺利得很…以前也确实没听说过有这么低的限制（ wikipedia 说是 1EiB ）。看了你发的链接，理论上 2012 年以后的内核和 e2fsprogs 都应该已经支持大于 16TB 的 ext4 卷了才对…

helixzz

2016-06-15 16:13:34 +08:00

@xbb7766 不过，考虑别的文件系统的确是正经事。在不太改变现有架构的情况下，似乎 XFS 是个不错的选择？

xbb7766

2016-06-15 16:55:36 +08:00

@helixzz
我最早是从家用 NAS 开始用 XFS ，因为 ARM 的 CPU 本来就弱， XFS 读写时开销比较小。后来仓库机上也用的这个，除了不能像 extfs 那样缩小卷，其他没觉得什么不便。
自己最大建过 15TB 的 XFS ，再大没试过。照 wikipedia 资料说最大可以 8EB 。

16TB 大概是 32 位系统的坎？因为按照 wikipedia 的资料 XFS 在 32 位系统下也有 16TB 限制。
https://en.wikipedia.org/wiki/XFS#Capacity

xbb7766

2016-06-15 17:12:53 +08:00

对了，关键的忘了。硬盘的 SMART 信息有出问题么？

helixzz

2016-06-15 18:02:58 +08:00

@xbb7766 32 位那就是 2^32 的限制了。我们用的都是 64bit 的 Ubuntu 。 RAID 卡没有报错（一直是 Optimal 状态），并且开启了 Patrol Read ，如果是硬盘硬件上的问题，我觉得 RAID 卡应该会告警的吧？ SMART 没有特别注意，但刚看了一下没有问题。而且这些 4TB RE4 也才用了一年。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/285908

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX