V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
fuxkcsdn
V2EX  ›  Linux

巧合还是被黑了?一周内 3 台虚拟机的硬盘都坏了...

  •  
  •   fuxkcsdn · 2016-11-15 23:38:08 +08:00 · 5333 次点击
    这是一个创建于 2932 天前的主题,其中的信息可能已经有所发展或是发生改变。
    3 台虚拟机都强制 证书登入,使用 3 个不同的证书(其中 2 个证书有密码), ssh 端口都不是标准的 22 端口

    第一台出问题的是我 PC 里的虚拟机,系统是 Debian 7
    半小时前还正常,突然就自动将硬盘挂载成只读,强制重启后进入 grub rescue 模式...后来通过 fsck.ext4 命令修复硬盘才找回大部分数据

    然后上周六的时候发现在 vutrl 中的 vps ( Debian 8 )无法连接,但因为架设在上面的 SS 服务没问题,就没理它了,想说可能是我这边网络问题

    然后今天在试了几个网络都连接不上后就到 vutrl 的后台通过 web vnc 连接上去,看到有硬盘坏道的错误信息,但任何输入都没反应,联系客服让重启...重启后又是进入到 grub rescue 模式...好在这台 vps 只是作为翻 Q 用,没资料在上面就直接重装系统了(没重启之前 SS 服务也都是好好的)

    突然想到上周六连接到 aws 上的 ec2 ( Debian 8 )也连接不上,就登入 aws 的控制台看看,发现最后的网络活动已经是半小时前了(这台 vps 上有业务,运营人员发现登陆不上去让我检查), SSH 也登入不上去,而 aws 又没提供 vnc ,老路子...重启...很好, 4 小时过去了,还无法进入系统, aws 的检查状态卡在 1/2 ...

    真是巧合??还是被黑了呢??我电脑上有保存着这 3 台虚拟机的密钥,而且 putty 上也有保存着 session 。
    但第一台我电脑上的虚拟机没有对外开放,而且发生问题时,我的物理机也处于内网
    第 1 条附言  ·  2016-11-16 10:23:01 +08:00

    aws 上的 ec2 果然也是硬盘问题,新建了一台 ec2,旧卷 mount 不了,提示

    [ 281.510042] EXT4-fs (xvdf2): ext4_check_descriptors: Block bitmap for group 128 not in group (block 2711683072)!
    [ 281.513949] EXT4-fs (xvdf2): group descriptors corrupted! 
    

    我电脑里的 虚拟机 也是遇到这错误,vutrl 上的 vps 也是这错误,现在 aws 上的 ec2 也是这错误,真是巧合???

    第 2 条附言  ·  2016-11-16 17:51:31 +08:00
    又一台阿里云 虚拟机挂了

    aliyun web 终端最后显示的信息



    任何输入都无响应,重启后...



    这台出问题的时间大概是 11 月 10 号下午 6 点左右,和我 PC 上虚拟机出问题的日期一致,我虚拟机出问题的时间大概是下午 2 、 3 点。 aws 的 ec2 最后服务时间是 15 号早上 6 点 44 ,翻墙专用的 vps 直到我强制重启前都可以正常服务,但连接不上去
    第 3 条附言  ·  2016-11-16 18:00:27 +08:00
    BTW ,阿里云 ecs 用的 CentOS 6u5 amd64 系统,不是 Debian
    24 条回复    2016-11-17 09:32:56 +08:00
    powergx
        1
    powergx  
       2016-11-15 23:45:00 +08:00 via iPhone
    aws 的存储是 mirror 3 的,不存在“硬盘坏了”的问题
    sopato
        2
    sopato  
       2016-11-15 23:47:14 +08:00
    被黑的可能性还是很低的了,而且都是磁盘问题,只能理解成巧合了。
    yangqi
        3
    yangqi  
       2016-11-15 23:49:08 +08:00
    赶紧喝口水看看会不会塞住牙缝
    fuxkcsdn
        4
    fuxkcsdn  
    OP
       2016-11-15 23:49:48 +08:00
    @powergx 那现在系统启动不了了😂,我该咋办啊?公司买的帐号里没有人工客服的 license

    @sopato 我得试着去买张彩票试试😂
    ovear
        5
    ovear  
       2016-11-15 23:52:59 +08:00 via Android
    aws 炸了发工单。。
    fuxkcsdn
        6
    fuxkcsdn  
    OP
       2016-11-15 23:58:11 +08:00
    @ovear
    At the Basic Support level, you can create account and billing support cases and service limit increase requests, but you cannot create technical support cases.

    还是说在 V2EX 上发工单??
    ovear
        7
    ovear  
       2016-11-16 08:53:18 +08:00 via Android
    叫 aws 给个 vnc ?
    ouqihang
        8
    ouqihang  
       2016-11-16 09:14:30 +08:00 via Android
    有相似经历, 2 个不同主机商的 VPS ,重做系统后失联,原因不明。管理页面的操作如关机重启重装没坏,就是连不上,家里的网试过,用第三台美国 VPS 连也不通(第三台也想重置,遇到这种事不敢再动,还要扶墙)。后来想到管理页面的 terminal ,发现 VPS ping 不通外网。分别联系客服, 2 边第一次回复都说搞好了,重装后又掉了, 2 台都一样,有一个直接 offline ,关机重启不能。再次联系,一边换了 IP (他说的,不知有没有换机器),一边直接说本来那个物理机坏了转移到另一台。终于解决,有一家还把我需要的 CentOS7 系统撤下了,一度觉得他们怀疑是用户用 CentOS7 把防火墙玩坏了。一度以为撞鬼了, up time 这么高怎么那么容易坏,还一次坏 2 个在我头上,还是不同主机商。
    fuxkcsdn
        9
    fuxkcsdn  
    OP
       2016-11-16 09:49:00 +08:00
    @ovear 现在新建一台 ec2 ,把旧的停掉,打算把旧的硬盘挂载到新的上面试试

    @ouqihang 有时候真的不得不怀疑人生了啊...那么巧合的事也能撞上...好在我要交接的资料都写完并交接清楚了,不然离职可就麻烦了...
    fuxkcsdn
        10
    fuxkcsdn  
    OP
       2016-11-16 10:21:03 +08:00
    @powergx
    [ 281.510042] EXT4-fs (xvdf2): ext4_check_descriptors: Block bitmap for group 128 not in group (block 2711683072)!
    [ 281.513949] EXT4-fs (xvdf2): group descriptors corrupted!
    新建了一台 ec2 ,想把旧卷挂载上来失败,提示...果然是硬盘坏道了吧...
    3 台全部都是这个错误,尼玛,开始怀疑人生了
    likuku
        11
    likuku  
       2016-11-16 10:55:03 +08:00
    EBS 么?不该这么容易坏啊。

    所以文件放 s3 ,数据放 rds 服务,才是正道啊...
    powergx
        12
    powergx  
       2016-11-16 10:57:24 +08:00
    @fuxkcsdn 我上过 aws 培训, 硬盘是 raid1 三盘镜像。 磁盘可靠性绝对没问题
    ryd994
        13
    ryd994  
       2016-11-16 12:05:28 +08:00 via Android
    aws 可以基本排除硬件问题
    如果一升级就挂的话有可能是内核 bug ,这种事情以前有过。但是最近没听说啊……而且是 Debian
    黑 VPS 之类的,除非你运气不好遇上菜鸟,否则谁那么无聊来搞坏你机器?抓个肉鸡不好么?
    会不会是你使用习惯不好老是拔电源,导致文件系统逻辑错误?
    是不都跑了某个自制脚本,特别是用 root 跑?如果直接写入硬盘设备文件,损坏了文件系统结构的话,就是这个样子。
    newghost
        14
    newghost  
       2016-11-16 13:51:43 +08:00
    碰到过这次的情况,也是一升级系统登不进去,但是里面的某个服务跑得还是好好的,估计是 SSH 登录进程起不起来。


    解决办法是做个镜像,把老机器装个最新的 debian 系统,再把老镜像挂载到新系统里,文件就都找回来了。

    一定要是同一台虚拟机,否则可能网段都不一样。
    justfindu
        15
    justfindu  
       2016-11-16 13:56:32 +08:00
    我们也遇到过 但不是云 就是自有服务器 同批次的盘 同段时间 坏了 2 块~
    Showfom
        16
    Showfom  
       2016-11-16 14:04:21 +08:00 via iPhone
    vutrl.....楼主来跟着我拼写 VULTR
    fds
        17
    fds  
       2016-11-16 14:15:27 +08:00
    应该是跟强制重启有关吧。看网上类似错误不少,有个修复在 https://linuxexpresso.wordpress.com/2010/03/31/repair-a-broken-ext4-superblock-in-ubuntu/
    valkjsaaa
        18
    valkjsaaa  
       2016-11-16 17:19:01 +08:00 via iPhone
    嗯,这应该叫文件系统错误,不是硬盘错误。
    kmahyyg
        19
    kmahyyg  
       2016-11-16 17:28:12 +08:00 via Android
    上月连续自己租的 enzu cn2 vps 两台不同网段都是被运营商公告一半硬盘空间不可用,然后那边对拷硬盘、恢复备份,换 ssd ,正常服务。

    期间, ss ssh 正常、但无法操作(可登录,无流量出)。

    应该不是偶然事件
    fuxkcsdn
        20
    fuxkcsdn  
    OP
       2016-11-16 17:58:56 +08:00
    @ryd994 都没升级,基本上就刚装完系统 apt-get upgrade 一下,之后基本不升级...我虚拟机里最后一次执行 apt-get 估计都 1 、 2 个月前了,翻墙专用那台服务器估计都快 1 年没去动它了吧...aws 就没用过 root (不知道 aws ec2 的默认 root 密码)
    拔电源就更不可能了,我自己的虚拟机确实是有几次笔记本来不及关机导致意外关机,但另外几台都是 vps ,都是正常 z 执行命令重启的(而且也基本上没重启过)

    @Showfom 不要在意这些细节 🙈

    @fds ssh 连接不上, vnc 任何输入都无响应了,不重启不行了啊...
    fuxkcsdn
        21
    fuxkcsdn  
    OP
       2016-11-16 18:14:55 +08:00
    刚跟同事在讨论的时候,他猜测会不会是部署的代码问题
    但所有服务器里也就运行 php 代码, php 的插件也都是用 php 原生插件( yum 或者 apt 安装的),唯一一个第三方插件是 phpredis
    但....我自己的虚拟机当时并没跑任何项目,因为当时我只是在写交接资料,并没运行任何项目,即使有,也得有人访问啊... 翻墙那台 vps 甚至只有 ss 在跑
    liuyanjun0826
        22
    liuyanjun0826  
       2016-11-17 07:50:40 +08:00
    @fuxkcsdn 强制断电也会造成分区损坏的
    fuxkcsdn
        23
    fuxkcsdn  
    OP
       2016-11-17 09:15:14 +08:00 via iPhone
    @liuyanjun0826 是没错,关键是这种情况除了强制重启貌似也没其他办法了啊…
    turan12
        24
    turan12  
       2016-11-17 09:32:56 +08:00
    好吧,我承认我是强迫症,看到 vutrl 恨不得帮 lz 改过来。:p
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3506 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 00:08 · PVG 08:08 · LAX 16:08 · JFK 19:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.