liuzhedash
2018-08-08 14:54:03 +08:00
前司到处都是:
1、一觉起来发现数据库因为连接错误过多关闭连接了,所有业务停摆几小时
2、php-fpm 内存泄漏,终于在某天中午占满了所有内存导致业务停摆几小时
3、被当成 ddos 肉鸡,随机时间向外打流量,所有业务停摆 48 小时
4、cron 触发的系统邮件文件占满了所有 inode,无法创建任何新文件,导致所有业务停摆几小时
5、删错数据、删错订单、退错款、付了款订单失败、App 推送点不开、App 推送不到达都是家常便饭,不说了
6、景区保安把手持验票机( Android 系统)热点打开,3 天耗完 4GB 流量
7、短信通道被 ddos,几百条订单短信发不出去,节假日客服电话被打爆,我的电话被客服打爆
8、工程师把生产库当测试库调整 sql,join 死循环导致 mysql 吃 100%cpu,好在站库分离影响不大
9、推送的 react native 热更新把热更新检查代码注释了,不得不更新原生版本
10、合作方在业务高峰前夜切换接口实现,三天内囤积了 5w 左右的订单无法验证状态(是否使用),老板用从未有过的认真表情问我这 5w 到底会落实成多少损失,好在实际上没多少损失
终于凑够 10 条了,其实 v2 上大佬很多,说话也很好听,技术都很高明,但是实际上大部分的小公司真的只有我这样的一个技术头目带几个兄弟做研发,没有什么精力去做很完善的运维,维持 bug 不比 feature 多就已经竭尽全力了。
希望大家负责的项目都能稳定运行,天长地久。