你司有没有过运维事故?

2018-08-08 13:45:44 +08:00
 AllOfMe
删库,update 没加 where,rm rf /,误删 glibc 等等运维事故,小至两三人的创业公司,大至如最近的腾讯云磁盘事故,都有可能发生。
你们公司有没有过类似的事故?这些犯错的员工下场一般是怎么样的?
18195 次点击
所在节点    程序员
154 条回复
mossss21
2018-08-08 13:56:28 +08:00
一百人不到的游戏公司。以前一位运维手滑导致活动提前结束。后来被开了。
现在做法是禁用 rm,改用 mv 到指定路径下,另有脚本定时清里面的文件。
jrient
2018-08-08 14:03:40 +08:00
@mossss21 还好我以前呆的公司比较好 不然已经被开了十几次了
virus94
2018-08-08 14:04:45 +08:00
- - 手滑删过库 不过还好操作前备份了一下......
caaat
2018-08-08 14:10:08 +08:00
就是删库呗,不过还好是开启日志归档的 db2
funcman
2018-08-08 14:11:31 +08:00
曾经有个 bug 跑了起码半年,陆续删掉的数据可能有几千万条。这个事我可以吹好几年哈哈。每次看到大数据我就想到两件搞笑事,一件是这个,另一件就是数字够大就是大数据。哈哈哈哈哈哈哈哈哈。
ETiV
2018-08-08 14:17:56 +08:00
直接物理接触,格了别人的服务器……

那还是在 2010 年,当时在的小公司,项目上线,跟别人借的服务器。

我们去机房,机房工作人员随手指了两台,说这俩给你们用的。

然后我们开始格盘装系统。装完系统,机房那哥们说,两台中有一台指错了…
Showfom
2018-08-08 14:19:45 +08:00
@ETiV 然后怎么处理的
chenhonzhou
2018-08-08 14:25:48 +08:00
@ETiV 悲惨了
lingo
2018-08-08 14:26:48 +08:00
手滑删过公司的小项目源码。反编译回来了。
shadownet
2018-08-08 14:28:39 +08:00
删库,经历过 1,2 次吧
7654
2018-08-08 14:29:03 +08:00
update …… where 1=1
内部系统 web 运行缓慢半小时
imaning
2018-08-08 14:39:38 +08:00
我曾经干过,rm -rf / home/...... 多个空格,悲剧了。
niuoh
2018-08-08 14:44:05 +08:00
我执行过 chmod 777 / -R
SoulSleep
2018-08-08 14:44:13 +08:00
测试数据库服务器 rm -rf /
---找监控,甩锅
oracle 生产库业务表 update xxx set dddd=1 where 1=1
---找磁带,恢复 48 小时
生产存储固件挂掉....宕机 2 周
---索赔几百万...吧
mysql 生产库业务表 update xxx set dddd=1 where 1=1
---找到 1 小时前数据,还原掉,并通知业务人员重新操作
生产应用宿主机宕机
----没啥,找人甩锅呗

别的记不得了,反正我觉得自己心脏倍儿好
opengps
2018-08-08 14:46:40 +08:00
这么说吧,小心谨慎的运维,都是干过这类问题的,我当年是写 sql 眼花,清空了一个备注列,幸好纯内部系统,丢了就丢了
Felldeadbird
2018-08-08 14:51:57 +08:00
@ETiV 后续赔钱了吗?
liuzhedash
2018-08-08 14:54:03 +08:00
前司到处都是:
1、一觉起来发现数据库因为连接错误过多关闭连接了,所有业务停摆几小时
2、php-fpm 内存泄漏,终于在某天中午占满了所有内存导致业务停摆几小时
3、被当成 ddos 肉鸡,随机时间向外打流量,所有业务停摆 48 小时
4、cron 触发的系统邮件文件占满了所有 inode,无法创建任何新文件,导致所有业务停摆几小时
5、删错数据、删错订单、退错款、付了款订单失败、App 推送点不开、App 推送不到达都是家常便饭,不说了
6、景区保安把手持验票机( Android 系统)热点打开,3 天耗完 4GB 流量
7、短信通道被 ddos,几百条订单短信发不出去,节假日客服电话被打爆,我的电话被客服打爆
8、工程师把生产库当测试库调整 sql,join 死循环导致 mysql 吃 100%cpu,好在站库分离影响不大
9、推送的 react native 热更新把热更新检查代码注释了,不得不更新原生版本
10、合作方在业务高峰前夜切换接口实现,三天内囤积了 5w 左右的订单无法验证状态(是否使用),老板用从未有过的认真表情问我这 5w 到底会落实成多少损失,好在实际上没多少损失

终于凑够 10 条了,其实 v2 上大佬很多,说话也很好听,技术都很高明,但是实际上大部分的小公司真的只有我这样的一个技术头目带几个兄弟做研发,没有什么精力去做很完善的运维,维持 bug 不比 feature 多就已经竭尽全力了。
希望大家负责的项目都能稳定运行,天长地久。
Phariel
2018-08-08 14:55:49 +08:00
我老东家遇到过 有一台 build server 上面的同一时间通电的同一批次的三块 SSD 在同一时间一起报废 幸好不是生产服务器 吓出一身冷汗
xiaoheshang
2018-08-08 14:55:53 +08:00
生产服务器被开发 rm -fr /* ,过了好几分钟发现不对劲取消,除了挽回几十个 G 的日志其他数据全丢了。
xiaoheshang
2018-08-08 14:57:41 +08:00
RAID1 两块硬盘坏了一块,运维热插拔把正常的拿下来了。。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477926

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX