V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LeanCloud
LeanCloud
hanmiao
V2EX  ›  LeanCloud

又来。。。LeanCloud 中国节点的后端存储集群出现问题

  •  
  •   hanmiao · 2016-04-22 19:50:34 +08:00 · 5069 次点击
    这是一个创建于 3147 天前的主题,其中的信息可能已经有所发展或是发生改变。

    2016 年 4 月 22 日:中国节点存储服务故障说明

    2016 年 4 月 22 日 13:04 开始, LeanCloud 中国节点的后端存储集群出现问题,导致该节点上所有应用都出现了存储 API 访问故障,将近半小时后得到恢复。故障的详细经过通报如下。

    故障时间

    13:09 - 13:28 :所有应用的数据存储服务都出现访问异常(持续 19 分钟) 13:28 - 13:40 :大部分应用已经恢复,但还有 20% 的应用依然无法正常访问(持续 12 分钟) 影响范围

    中国节点上所有应用的存储服务都受到影响,同时依赖于数据存储的实时通信、云引擎服务也可能出现内部错误。

    美国节点不受影响,所有服务均工作正常。

    事故经过

    13:04 :我们监控系统陆续发出报警,后端存储集群访问超时慢慢增多,工程师介入调查,并向用户发出了短信和邮件通知。 13:10 :整个集群的存储 API Server 不再响应外部请求。调查后确认是后端存储系统在做大量耗时的关系数据写入操作,导致系统失去响应。于是我们马上重启集群,并分批开放流量。 13:28 :部分存储分片( shard )得到恢复, 80% 的应用访问恢复正常;发送第二次故障进度通知。 13:40 :所有应用恢复正常;发送故障解决通知。 后续改进措施

    这一次故障的根本原因在于 AVRelation 模型的底层实现存在缺陷,某些特殊条件下会导致后端存储系统因忙于处理而失去响应。我们已完成替代方案的开发,正在测试中,下周会发布更合理的解决方案。( 4 月 27 日周三完成) 改进并发限制的算法,以便在异常条件下更好地限制故障的影响范围。( 4 月 25 日周一完成) 排查所有危险/耗时操作,在上层进行写入控制,避免对后端存储系统造成太大影响。( 4 月 25 日周一完成) 近期 LeanCloud 平台较为频繁地发生故障,这对我们也是一种前所未有的考验。 LeanCloud 一直把稳定看成生命线,所以我们正在集中全部精力来应对用户和流量不断增长带来的挑战,每周都会上线一些增加稳定性的措施。我们有信心能尽快让云服务更加稳定和可靠,希望广大开发者能够继续支持和信任 LeanCloud 。

    如果您有任何疑问,请发送邮件至 [email protected] 进行确认。

    Cheers, The LeanCloud Team

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1190 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 18:31 · PVG 02:31 · LAX 10:31 · JFK 13:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.