V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lxdlam
V2EX  ›  Amazon Web Services

AWS 复盘报告出来了

  •  
  •   lxdlam ·
    lxdlam · 2 天前 · 2975 次点击
    https://aws.amazon.com/cn/message/101925/

    省流:
    DynamoDB 的 DNS 子系统出现了 Race Condition 导致可用端点被清空,依赖的服务连接失败
    -> 在此期间 EC2 的核心管理器被大量旧 event 冲击过载,导致资源池空间上报不准确和网络状态在 VPC 内扩散出现延迟
    -> NLB 在接受这些积压消息的时候来回切换检测结果( healthy 和 unavailable 之间跳变),下游服务连接受到影响
    7 条回复    2025-10-25 13:05:38 +08:00
    Ketteiron
        1
    Ketteiron  
       2 天前
    一句话总结:DynamoDB 自动化系统因潜在竞态条件导致删除了自己的 DNS 记录。
    感觉各种重大事故都是因为自我删除或者自我重启失败。
    mytsing520
        2
    mytsing520  
    PRO
       2 天前
    越是底层的故障,影响越大;越是影响大的故障,往往故障原因越简单
    kevan
        3
    kevan  
       2 天前
    所以还是互不干涉吧
    ypcs03
        4
    ypcs03  
       2 天前 via iPhone
    还好没有互相依赖,要是 DDB 的恢复依赖 EC2 的 instance launch 就搞笑了
    yedkk
        5
    yedkk  
       1 天前
    看下来全在大事化小,第一段一大半还搁这吹他的“seamless scale, fault isolation and recovery, low latency, and locality”。
    我都笑死了,被其中一个服务的 DNS server 的 race 干崩了 60 个服务,IAM 都 down 了,他怎么还好意思吹自己 “This automation has been designed for resilience, allowing the service to recover from a wide variety of operational issues.”
    不愧是含印量最高的大厂。
    yedkk
        6
    yedkk  
       1 天前
    印度人毁了波音,毁了微软,现在又伸手去搞 AWS 了,等苹果换个印度 CEO 不清楚站里还有多少人粉苹果的。
    xiaket
        7
    xiaket  
       11 小时 45 分钟前
    顺着这个分享一下当时处理故障的时候的一个小插曲. 当时 AWS 的 TAM 有说如果特别 critical 的话, 可以通过 IP 去连接这个服务, 仍然是有效的. 不过被我们这边否定了, 因为 DDB 是一个 shard 非常非常多的服务. 每台能承载的请求有限. 我们如果把服务换成某个固定的 IP 或者某几个固定的 IP, 指不定后面还有没有什么其他幺蛾子出现.
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1308 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 16:51 · PVG 00:51 · LAX 09:51 · JFK 12:51
    ♥ Do have faith in what you're doing.