1
Ketteiron 2 天前
一句话总结:DynamoDB 自动化系统因潜在竞态条件导致删除了自己的 DNS 记录。
感觉各种重大事故都是因为自我删除或者自我重启失败。 |
2
mytsing520 PRO 越是底层的故障,影响越大;越是影响大的故障,往往故障原因越简单
|
3
kevan 2 天前
所以还是互不干涉吧
|
4
ypcs03 2 天前 via iPhone
还好没有互相依赖,要是 DDB 的恢复依赖 EC2 的 instance launch 就搞笑了
|
5
yedkk 1 天前
看下来全在大事化小,第一段一大半还搁这吹他的“seamless scale, fault isolation and recovery, low latency, and locality”。
我都笑死了,被其中一个服务的 DNS server 的 race 干崩了 60 个服务,IAM 都 down 了,他怎么还好意思吹自己 “This automation has been designed for resilience, allowing the service to recover from a wide variety of operational issues.” 不愧是含印量最高的大厂。 |
6
yedkk 1 天前
印度人毁了波音,毁了微软,现在又伸手去搞 AWS 了,等苹果换个印度 CEO 不清楚站里还有多少人粉苹果的。
|
7
xiaket 11 小时 45 分钟前
顺着这个分享一下当时处理故障的时候的一个小插曲. 当时 AWS 的 TAM 有说如果特别 critical 的话, 可以通过 IP 去连接这个服务, 仍然是有效的. 不过被我们这边否定了, 因为 DDB 是一个 shard 非常非常多的服务. 每台能承载的请求有限. 我们如果把服务换成某个固定的 IP 或者某几个固定的 IP, 指不定后面还有没有什么其他幺蛾子出现.
|