请问一觉醒来, fedora40 崩了,包括系统盘内的所有硬盘的分区都损坏了,怎么修复呢?

199 天前
 lin0kin

使用铭瑄 b760 和 12500 装的 homeserver ,周末醒来发现 ssh 无法登录,连上屏幕发现,连 tty 都进不去了

做了 live 盘发现系统分区损坏了,机器内安装的 6 个机械盘的分区也都损坏了

gdisk 提示重新分区,testdisk 恢复分区有点问题,有没有大佬指导一下:

1 、可能是什么原因导致的?病毒吗? 2 、还有什么修复的方法?

4212 次点击
所在节点    Linux
44 条回复
liyafe1997
199 天前
@lin0kin 建议先用 WinHex 这类软件先看看硬盘原始的扇区数据是个什么情况,看看是不是有坏道,所有扇区是否可读。建议把整个盘 DUMP 出来再说,这种情况不建议做写入操作(比如就地 fsck )
lin0kin
199 天前
@liyafe1997 固态没有坏道的吧?机械的话,现在全拆了,因为是一比一备份,准备先拿一块看看情况,能不能恢复。主要是 Linux 下几个软件都不能恢复目录结构和文件名,很痛苦
lin0kin
199 天前
@kaneg 感觉像是固态掉盘,系统挂掉了,然后整机异常断电,出的问题。机械本身应该没问题
liyafe1997
199 天前
@lin0kin 谁说的固态没坏道?前几个月刚刚翻车了一块杂牌 4TB QLC 固态



liyafe1997
199 天前
@lin0kin 我当时情况还算 Lucky 的,坏道从容量上来说不算多(印象总共也就十几还是几十 MB ),但是很多致命的地方。首先是 GPT 主分区表(也就是硬盘开头那个)寄了,好在 GPT 在末尾还有个备份分区表。然后有个 NTFS 分区,MFT 寄了一部分,然后有很多文件都有小部分寄了,这直接导致了里面一大票文件都要不了了。不过好在我这整个分区有之前的镜像备份,然后正好里面有几个新的数据没有寄,非常幸运,最后真正失去的只有一个不太重要的东西。

然后还有个 btrfs 分区,这就更幸运了,在头部寄了大概几十 KB ,看了下那部分几乎没有任何信息(还是是一些所有 btrfs 分区都有的 magic number 之类的,记得当时手动创建了个新的 btrfs 文件系统,然后对比 offset 来看,然后把一些扇区从新的弄到旧的损坏部位),btrfs 的 metadata 似乎是从 128KB 之后的位置开始的,因此这个分区完好无损恢复了。这个 btrfs 在原来的坏盘上也是没法 mount 的,直接会报类似上图的 IO Error ,因为会尝试读开头的扇区。

建议硬盘出故障时,不要去纠结什么分区表啊文件系统啊这些软件层面的东西,先尝试全盘 dump 所有扇区,看看有没有坏扇区,能读出多少,再用 dump 出来的数据,来修复软件层面的东西,什么分区表啊,文件系统啊,MFT 啊,superblock 啊等等那些。
lin0kin
199 天前
@liyafe1997 应该叫坏块吧
lin0kin
199 天前
@liyafe1997 ok ,我去试试
Linux 下有什么工具可以用吗?盘太大,dd 生成的镜像没地方放,testdisk 恢复的数据没有文件名
liyafe1997
199 天前
@lin0kin dd 可以考虑 gzip/squashfs 压缩,如果还没地方放那没办法了,可以考虑买硬盘。
liyafe1997
199 天前
@lin0kin 建议用 squashfs 流式保存 dd 来实现压缩的目录,这样以后只要挂载 squashfs 就能访问原始的 dd 镜像了。如果 gzip/pigz 压缩的话以后不要使用,得先解压出来。

下面是我备份硬盘用的命令,流式 dd 到一个 squashfs 里,压缩算法为 zstd level 9 ,你可以参考:

mkdir empty-dir
sudo mksquashfs empty-dir SSD_bak.squashfs -comp zstd -Xcompression-level 9 -p 'dd_image.img f 444 root root dd if=/dev/nvme0n1 status=progress bs=64M'
ltkun
199 天前
都 server 了还是 raid1 raid5 这种多搞搞吧
hanyuwei70
199 天前
op 试着在 live 里面挂载一下 btrfs ,看报错以及 dmesg 信息。
你这同时坏这么多我怀疑是电源有问题。
liuliancao
198 天前
把盘放到别的电脑上面 先备份吧 然后尝试 fsck 类似的看看 然后最好截图下究竟报啥错 比如 一般情况 rescue 还是可以进去的
wildlife
198 天前
有可能是 SSD 问题,曾经我也在某个 SSD 上运行 Linux ,期间总是出现各种问题,后来有次我从外部拷贝了 2 次同一份大文件,发现两个文件的 hash 居然对不上。。。
fugu37
198 天前
@wildlife #33 这也可能是内存不稳定
lin0kin
198 天前
@hanyuwei70 没有找到报错
lin0kin
198 天前
@liyafe1997 只有一个 8t 的机械空着。找人借盘中。
所有机械都使用 rsync 备份文件到另一张盘,没想到全挂了
lin0kin
198 天前
@ltkun 存重要数据的租了 raid1 ,一样挂掉。还没法恢复
lin0kin
198 天前
@hanyuwei70 京东买的新的,全汉蓝爆 plus 。也就用了几个月,不知道是不是硬盘背板供电的问题
lin0kin
198 天前
@fugu37 系统没了,连日志都没有
lin0kin
198 天前
@wildlife 怀疑是硬盘背板的问题,之前是四盘,运行三个月,没啥问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1051898

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX