https://aws.amazon.com/message/41926/
At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.
1
holyghost 2017-03-03 10:39:58 +08:00 1
不知道这哥们要看多少个小时的无聊小视频
|
2
XiaoFaye 2017-03-03 10:52:34 +08:00
很难想象这种批处理命令不需要 Review 。。。
|
3
acoder2013 2017-03-03 10:56:42 +08:00
Amazon 的工程师也是 just so so 啦, 23333333
|
4
just4test 2017-03-03 11:20:59 +08:00
所以删除服务器这种事没有机器人管么?
''' 操作被拒绝。该操作将影响以下子系统: 索引子系统: 30%容量被移除,余下容量不足以支撑线上压力 放置子系统: 20%容量被移除,余下容量不足以支撑 N+1 要强制执行此命令,使用 --fuckyou 参数重试。 ''' |
6
stevele 2017-03-03 12:01:40 +08:00
那也得用啊
|
8
21grams 2017-03-03 12:12:53 +08:00
命令输错了? 难道不应该做成脚本吗?
|
9
vingz 2017-03-03 12:14:21 +08:00
并不能所有的维护过程都变成自动化啊
|
11
eyp82 2017-03-03 12:28:46 +08:00
应该是用了 ansible 之类的东西
|
12
bingwenshi 2017-03-03 12:31:44 +08:00
@21grams 用了脚本,但是参数写错了
|
13
okampfer 2017-03-03 12:31:51 +08:00
尤记得上次 gitlab 的 rm -rf /
|
14
matrix67 2017-03-03 12:57:07 +08:00
playbook 的话肯定是 ansible 吧。 salt 不叫这个名字。
|
15
vindurriel 2017-03-03 14:37:28 +08:00
>> Removing a significant portion of the capacity caused each of these systems to require a full restart
应该有办法改进吧 |
18
taowen 2017-03-03 23:15:59 +08:00
说明运维自动化的抽象层次还是太低了,这么大的厂,居然还能用 ansible 搞这么底层的事情。还以为 AWS 的运维已经脱离了 bash 的低级趣味呢
|
19
donghui 2017-03-04 08:09:35 +08:00 via iPad
一不小心就删错
|
20
xiaq 2017-03-04 11:37:11 +08:00 via iPad 1
这里的 Playbook 指的应该是事故处理的手册
|