https://aws.amazon.com/message/41926/
At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.
|  |      1holyghost      2017-03-03 10:39:58 +08:00  1 不知道这哥们要看多少个小时的无聊小视频 | 
|  |      2XiaoFaye      2017-03-03 10:52:34 +08:00 很难想象这种批处理命令不需要 Review 。。。 | 
|      3acoder2013      2017-03-03 10:56:42 +08:00 Amazon 的工程师也是 just so so 啦, 23333333 | 
|      4just4test      2017-03-03 11:20:59 +08:00 所以删除服务器这种事没有机器人管么? ''' 操作被拒绝。该操作将影响以下子系统: 索引子系统: 30%容量被移除,余下容量不足以支撑线上压力 放置子系统: 20%容量被移除,余下容量不足以支撑 N+1 要强制执行此命令,使用 --fuckyou 参数重试。 ''' | 
|  |      6stevele      2017-03-03 12:01:40 +08:00 那也得用啊 | 
|  |      821grams      2017-03-03 12:12:53 +08:00 命令输错了? 难道不应该做成脚本吗? | 
|  |      9vingz      2017-03-03 12:14:21 +08:00 并不能所有的维护过程都变成自动化啊 | 
|      11eyp82      2017-03-03 12:28:46 +08:00 应该是用了 ansible 之类的东西 | 
|  |      12bingwenshi      2017-03-03 12:31:44 +08:00 @21grams 用了脚本,但是参数写错了 | 
|  |      13okampfer      2017-03-03 12:31:51 +08:00 尤记得上次 gitlab 的 rm -rf / | 
|  |      14matrix67      2017-03-03 12:57:07 +08:00 playbook 的话肯定是 ansible 吧。 salt 不叫这个名字。 | 
|  |      15vindurriel      2017-03-03 14:37:28 +08:00 >> Removing a significant portion of the capacity caused each of these systems to require a full restart 应该有办法改进吧 | 
|  |      18taowen      2017-03-03 23:15:59 +08:00 说明运维自动化的抽象层次还是太低了,这么大的厂,居然还能用 ansible 搞这么底层的事情。还以为 AWS 的运维已经脱离了 bash 的低级趣味呢 | 
|  |      19donghui      2017-03-04 08:09:35 +08:00 via iPad 一不小心就删错 | 
|      20xiaq      2017-03-04 11:37:11 +08:00 via iPad  1 这里的 Playbook 指的应该是事故处理的手册 |