巧合还是被黑了？一周内 3 台虚拟机的硬盘都坏了...

powergx

2016-11-15 23:45:00 +08:00

aws 的存储是 mirror 3 的，不存在“硬盘坏了”的问题

sopato

2016-11-15 23:47:14 +08:00

被黑的可能性还是很低的了，而且都是磁盘问题，只能理解成巧合了。

yangqi

2016-11-15 23:49:08 +08:00

赶紧喝口水看看会不会塞住牙缝

fuxkcsdn

2016-11-15 23:49:48 +08:00

@powergx 那现在系统启动不了了😂，我该咋办啊？公司买的帐号里没有人工客服的 license

@sopato 我得试着去买张彩票试试😂

ovear

2016-11-15 23:52:59 +08:00

aws 炸了发工单。。

fuxkcsdn

2016-11-15 23:58:11 +08:00

@ovear
At the Basic Support level, you can create account and billing support cases and service limit increase requests, but you cannot create technical support cases.

还是说在 V2EX 上发工单？？

ovear

2016-11-16 08:53:18 +08:00

叫 aws 给个 vnc ？

ouqihang

2016-11-16 09:14:30 +08:00

有相似经历， 2 个不同主机商的 VPS ，重做系统后失联，原因不明。管理页面的操作如关机重启重装没坏，就是连不上，家里的网试过，用第三台美国 VPS 连也不通（第三台也想重置，遇到这种事不敢再动，还要扶墙）。后来想到管理页面的 terminal ，发现 VPS ping 不通外网。分别联系客服， 2 边第一次回复都说搞好了，重装后又掉了， 2 台都一样，有一个直接 offline ，关机重启不能。再次联系，一边换了 IP （他说的，不知有没有换机器），一边直接说本来那个物理机坏了转移到另一台。终于解决，有一家还把我需要的 CentOS7 系统撤下了，一度觉得他们怀疑是用户用 CentOS7 把防火墙玩坏了。一度以为撞鬼了， up time 这么高怎么那么容易坏，还一次坏 2 个在我头上，还是不同主机商。

fuxkcsdn

2016-11-16 09:49:00 +08:00

@ovear 现在新建一台 ec2 ，把旧的停掉，打算把旧的硬盘挂载到新的上面试试

@ouqihang 有时候真的不得不怀疑人生了啊...那么巧合的事也能撞上...好在我要交接的资料都写完并交接清楚了，不然离职可就麻烦了...

fuxkcsdn

2016-11-16 10:21:03 +08:00

@powergx
[ 281.510042] EXT4-fs (xvdf2): ext4_check_descriptors: Block bitmap for group 128 not in group (block 2711683072)!
[ 281.513949] EXT4-fs (xvdf2): group descriptors corrupted!
新建了一台 ec2 ，想把旧卷挂载上来失败，提示...果然是硬盘坏道了吧...
3 台全部都是这个错误，尼玛，开始怀疑人生了

likuku

2016-11-16 10:55:03 +08:00

EBS 么？不该这么容易坏啊。

所以文件放 s3 ，数据放 rds 服务，才是正道啊...

powergx

2016-11-16 10:57:24 +08:00

@fuxkcsdn 我上过 aws 培训，硬盘是 raid1 三盘镜像。磁盘可靠性绝对没问题

ryd994

2016-11-16 12:05:28 +08:00

aws 可以基本排除硬件问题
如果一升级就挂的话有可能是内核 bug ，这种事情以前有过。但是最近没听说啊……而且是 Debian
黑 VPS 之类的，除非你运气不好遇上菜鸟，否则谁那么无聊来搞坏你机器？抓个肉鸡不好么？
会不会是你使用习惯不好老是拔电源，导致文件系统逻辑错误？
是不都跑了某个自制脚本，特别是用 root 跑？如果直接写入硬盘设备文件，损坏了文件系统结构的话，就是这个样子。

newghost

2016-11-16 13:51:43 +08:00

碰到过这次的情况，也是一升级系统登不进去，但是里面的某个服务跑得还是好好的，估计是 SSH 登录进程起不起来。

解决办法是做个镜像，把老机器装个最新的 debian 系统，再把老镜像挂载到新系统里，文件就都找回来了。

一定要是同一台虚拟机，否则可能网段都不一样。

justfindu

2016-11-16 13:56:32 +08:00

我们也遇到过但不是云就是自有服务器同批次的盘同段时间坏了 2 块~

Showfom

2016-11-16 14:04:21 +08:00

vutrl.....楼主来跟着我拼写 VULTR

fds

2016-11-16 14:15:27 +08:00

应该是跟强制重启有关吧。看网上类似错误不少，有个修复在 https://linuxexpresso.wordpress.com/2010/03/31/repair-a-broken-ext4-superblock-in-ubuntu/

valkjsaaa

2016-11-16 17:19:01 +08:00

嗯，这应该叫文件系统错误，不是硬盘错误。

kmahyyg

2016-11-16 17:28:12 +08:00

上月连续自己租的 enzu cn2 vps 两台不同网段都是被运营商公告一半硬盘空间不可用，然后那边对拷硬盘、恢复备份，换 ssd ，正常服务。

期间， ss ssh 正常、但无法操作（可登录，无流量出）。

应该不是偶然事件

fuxkcsdn

2016-11-16 17:58:56 +08:00

@ryd994 都没升级，基本上就刚装完系统 apt-get upgrade 一下，之后基本不升级...我虚拟机里最后一次执行 apt-get 估计都 1 、 2 个月前了，翻墙专用那台服务器估计都快 1 年没去动它了吧...aws 就没用过 root （不知道 aws ec2 的默认 root 密码）
拔电源就更不可能了，我自己的虚拟机确实是有几次笔记本来不及关机导致意外关机，但另外几台都是 vps ，都是正常 z 执行命令重启的（而且也基本上没重启过）

@Showfom 不要在意这些细节 🙈

@fds ssh 连接不上， vnc 任何输入都无响应了，不重启不行了啊...