你司有没有过运维事故?

2018-08-08 13:45:44 +08:00
 AllOfMe
删库,update 没加 where,rm rf /,误删 glibc 等等运维事故,小至两三人的创业公司,大至如最近的腾讯云磁盘事故,都有可能发生。
你们公司有没有过类似的事故?这些犯错的员工下场一般是怎么样的?
18133 次点击
所在节点    程序员
154 条回复
mhycy
2018-08-08 16:42:11 +08:00
拔掉一个 R6 阵列的 3 个盘......
ESXI 的母机操作系统挂了.....
julyclyde
2018-08-08 16:42:12 +08:00
glibc 还能误删?
Ace77
2018-08-08 16:42:39 +08:00
看着各位大佬的事故 记笔记记笔记! 看着就怕 哈哈
tiancaiyong
2018-08-08 16:42:47 +08:00
@chnhyg 简直不要太厉害
julyclyde
2018-08-08 16:44:39 +08:00
@shiny 我遇到过 sentry 被压垮的情况,发进去的内容全在队列里,越来越长
AllOfMe
2018-08-08 16:49:05 +08:00
@julyclyde 怎么说呢?可能一些开发人员不熟悉 rpm,被依赖折腾累了,不小心执行 rpm -e --nodeps --force 就把 glibc 卸载了。。这个情况我以前遇到过,唉,头疼
AllOfMe
2018-08-08 16:50:06 +08:00
@julyclyde 一般出现在 centos 这种内核 2.6,而且 glibc 又很老的情况下,误删 glibc 还是比较危险的操作
artandlol
2018-08-08 16:50:23 +08:00
@julyclyde 一般都是安装一些软件,顺带升级导致主服务不兼容挂掉
qiuqiuer
2018-08-08 16:51:30 +08:00
楼上的都被忽悠了,这是说运维的错,不是疼讯的错,感觉疼讯换产品经理了
julyclyde
2018-08-08 16:51:46 +08:00
@AllOfMe 用了不同大版本的 repo 吧?
chinvo
2018-08-08 16:57:08 +08:00
rm -rf 多打一个空格;
导数据库之后删除结果发现导出不完整;
不知道哪个手贱的给人演示“ RAID 的安全性”把一个最小规模的 RAID5 0 号盘拔掉换了位置没 rebuild,后来 2 号盘挂了;
热拉伸脚本写错了拉伸出去的都是空镜像直到自动压缩脚本执行的时候删掉正常容器才发现。

然后说一个道听途说的大事故:

因为机房 UPS 设计的太“坚挺”,每次停电全机房能在空调系统离线的情况下工作数小时,长期过热三层磁盘的中间一层磁盘几乎全部报废,存储控制器系统内部报警没人看到,前面板指示灯无异常。

终于在一次未提前通知的停电事件中整个存储挂掉,连带控制器系统也挂掉。

替换了几个批次的硬盘终于找到控制器识别的批次,用借来的控制器(型号老旧经销商和厂家都没有存货)将数据落到最底层,提心吊胆地启动之后惊心动魄地抢救数据,完整克隆到新的存储里面才算完。
AllOfMe
2018-08-08 16:57:09 +08:00
@julyclyde 主要也不是版本和 repo 的问题,是一些软件要求 glibc 的版本当前不符合。在使用 rpm 的强制卸载太任性,对 rpm 操作和 glibc 这一重要底层包被卸载危险的认识还不够。如果你卸载了 glibc,会导致只有 cd 和 pwd 能有,所有在运行进程全部不正常。
foxni
2018-08-08 16:57:52 +08:00
做过镜像的根盘坏了一块,给厂商报修,当天就换了块新的。可是在自动复制过程中另外一块也挂了,而镜像数据的复制却还没完成,最终系统挂了。。。。(还好是备机,不过这概率也是没谁了,记忆很深)
ckzx
2018-08-08 16:59:35 +08:00
昨天群里刚发生格错服务器了。把生产库给格了。并且备份还在这台机器上,哈哈。
murmur
2018-08-08 17:02:22 +08:00
实习生删表 紧急下线功能 挂维护通知 联系运维还原磁带备份 新数据建表再导 折腾一上午 还好内部系统
artandlol
2018-08-08 17:03:31 +08:00
使用 ansible 时调用了不知什么情况调用了一条之前执行过的命令,导致生产环境崩了
ETiV
2018-08-08 17:07:09 +08:00
@Showfom
@Felldeadbird

没后续了…
机房在宁波,当晚我们就回上海了

责任不在我们,所以我们肯定是没赔钱
不知道机房小哥咋样……
junphe
2018-08-08 17:08:42 +08:00
线上服务器删除当前目录的时候少加了个点结果就这样了“ rm -rf /”
一个小目录半天没反映,立刻中止了,吓出一身冷汗
幸好核心文件没有被删除
现在登录线上服务器操作都有点手抖
:(
xiaoheshang
2018-08-08 17:16:47 +08:00
@neoska 是的,你没看错,就是这么任性。其实 raid 没掉级,只是报警了,最后导致谁也不敢动服务器,把业务紧急迁移了。
InternetExplorer
2018-08-08 17:16:50 +08:00
@foxni #73 这种几率其实很高的,同批次硬盘的寿命都差不多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477926

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX