AWS 复盘报告出来了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 187 days ago, the information mentioned may be changed or developed.

https://aws.amazon.com/cn/message/101925/

省流：
DynamoDB 的 DNS 子系统出现了 Race Condition 导致可用端点被清空，依赖的服务连接失败
-> 在此期间 EC2 的核心管理器被大量旧 event 冲击过载，导致资源池空间上报不准确和网络状态在 VPC 内扩散出现延迟
-> NLB 在接受这些积压消息的时候来回切换检测结果（ healthy 和 unavailable 之间跳变），下游服务连接受到影响

dynamodb

EC2

nlb

7 replies • 2025-10-25 13:05:38 +08:00

Ketteiron

Oct 23, 2025

一句话总结：DynamoDB 自动化系统因潜在竞态条件导致删除了自己的 DNS 记录。
感觉各种重大事故都是因为自我删除或者自我重启失败。

mytsing520

PRO

Oct 23, 2025

越是底层的故障，影响越大；越是影响大的故障，往往故障原因越简单

kevan

Oct 23, 2025

所以还是互不干涉吧

ypcs03

Oct 23, 2025 via iPhone

还好没有互相依赖，要是 DDB 的恢复依赖 EC2 的 instance launch 就搞笑了

yedkk

Oct 24, 2025

看下来全在大事化小，第一段一大半还搁这吹他的“seamless scale, fault isolation and recovery, low latency, and locality”。
我都笑死了，被其中一个服务的 DNS server 的 race 干崩了 60 个服务，IAM 都 down 了，他怎么还好意思吹自己 “This automation has been designed for resilience, allowing the service to recover from a wide variety of operational issues.”
不愧是含印量最高的大厂。

yedkk

Oct 24, 2025

印度人毁了波音，毁了微软，现在又伸手去搞 AWS 了，等苹果换个印度 CEO 不清楚站里还有多少人粉苹果的。

xiaket

Oct 25, 2025

顺着这个分享一下当时处理故障的时候的一个小插曲. 当时 AWS 的 TAM 有说如果特别 critical 的话, 可以通过 IP 去连接这个服务, 仍然是有效的. 不过被我们这边否定了, 因为 DDB 是一个 shard 非常非常多的服务. 每台能承载的请求有限. 我们如果把服务换成某个固定的 IP 或者某几个固定的 IP, 指不定后面还有没有什么其他幺蛾子出现.