你司有没有过运维事故?

2018-08-08 13:45:44 +08:00
 AllOfMe
删库,update 没加 where,rm rf /,误删 glibc 等等运维事故,小至两三人的创业公司,大至如最近的腾讯云磁盘事故,都有可能发生。
你们公司有没有过类似的事故?这些犯错的员工下场一般是怎么样的?
18134 次点击
所在节点    程序员
154 条回复
KasuganoSoras
2018-08-09 18:08:22 +08:00
@iwaifor 对,发送指令给机器人,机器人连接服务器 ssh 执行命令 mysqldump 把数据库数据备份到文件里。
ghhardy
2018-08-09 18:29:47 +08:00
@chnhyg 前同事的灵魂在保佑着你们
Hardrain
2018-08-09 19:01:12 +08:00
@AllOfMe 不是我做的,是他们的开发搞的。

他们的开发好多测试直接在生产环境做(这就是我为什么说他们是垃圾公司)

要用一个(只)兼容旧版本 libc 的程序(好像是 RHEL 4 时代的),于是开发便不管不顾

不用容器(虚拟机 /docker)
不静态编译(libc.a)
不用 rpath 指定运行时 libc.so 的 path

就想到换掉系统的 libc.so.6

最后没重装,恢复模式下把安装介质上的 libc.so.6 拷回去并重建了 symlink,重启就好了
但生产环境出问题造成业务中断
mchong
2018-08-09 20:33:49 +08:00
目前公司遇到的几次大的事故:
1、腊月 28,公司邮件服务器上 raid1 的两块盘全挂。还好有磁带备份,最后用了 25 个小时恢复了邮件系统。整个公司 1 天多没有邮件用。。。
2、某天,突然生产系统无法访问,收到一堆掉电报警。UPS 挂了。生产服务器全掉电。后来改成机房一路 UPS,一路市电。
3、这个是我干的。vSphere 环境跑在 iSCSI 共享存储上,我把两台存储交换机给搞挂了。。。最后是老板半夜去机房重启搞定。对不起老板。
foxni
2018-08-09 20:36:19 +08:00
@loveour 我们的项目多用 raid 5,系统根盘则直接 raid 1,在新盘的复制过程中校验盘也挂掉这样的事故还真没怎么听过,也许是某些领域的产品对硬盘摧残的太厉害了吧,哈哈。
vakara
2018-08-09 21:11:30 +08:00
生产业务跑了几个月才发现扣费系统没工作算么……
Flobit
2018-08-09 21:29:40 +08:00
朋友删库,然后免费干一年,每个月 1000 块
yingfengi
2018-08-09 22:04:28 +08:00
被自己做的门禁锁在机房外面算不算?
james2013
2018-08-10 00:15:10 +08:00
1.服务器硬盘坏了,备份没有成功运行,带着硬盘连夜赶到华强北进行数据恢复,幸好恢复数据;
2.某次数据库还原,充值记录重复了一次,余额也翻了一倍.
cominghome
2018-08-10 09:26:58 +08:00
误删 glibc 的事我干过,不过是测试机器。
不记得是装个啥玩意来着了,一直装不上,提示说 glibc 版本不够,yum 升级屡次不成功,三番四次失败后居然脑洞大开想着要不先卸了再装,然后就悲剧了
congqing
2018-08-10 19:44:56 +08:00
@GoLand 不错
v2014
2018-08-12 02:23:32 +08:00
@KasuganoSoras 这个是什么机器人
KasuganoSoras
2018-08-13 03:14:11 +08:00
@v2014 酷 Q 机器人,自己写的插件,通过 PHP 执行 exec("mysqldump ......")实现的备份数据库。
mingyun
2018-10-02 19:34:08 +08:00
看来最多的还是 rm -rf 多打一个空格 还有不要复制命令在生产环境执行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477926

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX