你司有没有过运维事故？

删库，update 没加 where，rm rf /，误删 glibc 等等运维事故，小至两三人的创业公司，大至如最近的腾讯云磁盘事故，都有可能发生。
你们公司有没有过类似的事故？这些犯错的员工下场一般是怎么样的？

KasuganoSoras

2018-08-09 18:08:22 +08:00

@iwaifor 对，发送指令给机器人，机器人连接服务器 ssh 执行命令 mysqldump 把数据库数据备份到文件里。

ghhardy

2018-08-09 18:29:47 +08:00

@chnhyg 前同事的灵魂在保佑着你们

Hardrain

2018-08-09 19:01:12 +08:00

@AllOfMe 不是我做的，是他们的开发搞的。

他们的开发好多测试直接在生产环境做(这就是我为什么说他们是垃圾公司)

要用一个(只)兼容旧版本 libc 的程序(好像是 RHEL 4 时代的)，于是开发便不管不顾

不用容器(虚拟机 /docker)
不静态编译(libc.a)
不用 rpath 指定运行时 libc.so 的 path

就想到换掉系统的 libc.so.6

最后没重装，恢复模式下把安装介质上的 libc.so.6 拷回去并重建了 symlink，重启就好了
但生产环境出问题造成业务中断

mchong

2018-08-09 20:33:49 +08:00

目前公司遇到的几次大的事故：
1、腊月 28，公司邮件服务器上 raid1 的两块盘全挂。还好有磁带备份，最后用了 25 个小时恢复了邮件系统。整个公司 1 天多没有邮件用。。。
2、某天，突然生产系统无法访问，收到一堆掉电报警。UPS 挂了。生产服务器全掉电。后来改成机房一路 UPS，一路市电。
3、这个是我干的。vSphere 环境跑在 iSCSI 共享存储上，我把两台存储交换机给搞挂了。。。最后是老板半夜去机房重启搞定。对不起老板。

foxni

2018-08-09 20:36:19 +08:00

@loveour 我们的项目多用 raid 5，系统根盘则直接 raid 1，在新盘的复制过程中校验盘也挂掉这样的事故还真没怎么听过，也许是某些领域的产品对硬盘摧残的太厉害了吧，哈哈。

vakara

2018-08-09 21:11:30 +08:00

生产业务跑了几个月才发现扣费系统没工作算么……

Flobit

2018-08-09 21:29:40 +08:00

朋友删库，然后免费干一年，每个月 1000 块

yingfengi

2018-08-09 22:04:28 +08:00

被自己做的门禁锁在机房外面算不算？

james2013

2018-08-10 00:15:10 +08:00

1.服务器硬盘坏了,备份没有成功运行,带着硬盘连夜赶到华强北进行数据恢复,幸好恢复数据;
2.某次数据库还原,充值记录重复了一次,余额也翻了一倍.

cominghome

2018-08-10 09:26:58 +08:00

误删 glibc 的事我干过，不过是测试机器。
不记得是装个啥玩意来着了，一直装不上，提示说 glibc 版本不够，yum 升级屡次不成功，三番四次失败后居然脑洞大开想着要不先卸了再装，然后就悲剧了

congqing

2018-08-10 19:44:56 +08:00

@GoLand 不错

v2014

2018-08-12 02:23:32 +08:00

@KasuganoSoras 这个是什么机器人

KasuganoSoras

2018-08-13 03:14:11 +08:00

@v2014 酷 Q 机器人，自己写的插件，通过 PHP 执行 exec("mysqldump ......")实现的备份数据库。

mingyun

2018-10-02 19:34:08 +08:00

看来最多的还是 rm -rf 多打一个空格还有不要复制命令在生产环境执行

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477926

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.