V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
opengps
V2EX  ›  问与答

反向思考:阿里云这次故障里,有哪些措施面对故障发挥了好的作用?

  •  1
     
  •   opengps · 2018-06-28 08:58:46 +08:00 · 3182 次点击
    这是一个创建于 2340 天前的主题,其中的信息可能已经有所发展或是发生改变。

    首先,强调下中立理性思考的立场,虽然我做阿里云推广,但不是为了说阿里云好话推广阿里云。
    我是做技术出身,毕业后待过 2 家公司都不出实习期就离职了,后来在一加汽车服务公司做 GPS 平台 5 年多,这期间经历过项目发展过程的多种问题,因此本文不是在说谁好谁坏,我个人经历的项目,并发设备经历过从 0 到 10 万,从物理机房到物理机房虚拟化,再到全云平台。深刻体会过每次故障处理过程的困难。借此机会探讨下如何涉及、部署这种高并发项目,今天侧重部署方面,谈谈

    先用我自身举例,经历过的几个故障有(自建物理机房时期):
    1,运营商跨网故障,移动手机卡发往联通机房时候,在省节点跨网交换数据处中断。 最终找移动解决,耗时接近 3 天。后来针对线路特点,加了个移动光线,移动卡发回的数据,走移动线路,用户访问网站走联通线路,解决方式算是有效,最后上云直接依赖 BGP 线路
    2,物理机房时期:本市修地铁,挖断了联通光纤,半夜 3 点左右,我的外部监控发出报警,早上大约 5 点修复。 我当时能做的只有打完联通某些部门电话后(而且没有客服电话,是我联系业务中,存下的某些部门电话),坐等。。。
    3,地域性 dns 故障,某个城市到我们机房省份,经常出现不上线的情况,其他城市正常。 最后没有什么有效解决方案,通过配置,客户端设备改为不再使用域名,换成 ip,从此绑在了 ip。负面结果是后来上云总是没法彻底迁移设备数据。
    4,线路距离故障,某个省到机房总是很高延迟,经常飘红。 没有效解决办法,这个故障的最终用转移到云上,华东机房方式解决。实现全国范围综合延迟都兼顾。
    5,gps 业务的特点,高并发写入,硬盘写坏了 好在 raid10 的存在,接近 1T 的数据库还健在运行,最终只能停机更换硬盘,半夜对外中断服务,周期很长。(最快的解决方法就是转移到另外一台机器,1T 数据万兆网卡内网传输,光拷贝过程就用了很久)

    目前,关于本次阿里云故障,我总结到的有:
    1,再高的可用性,都是存在不可用的时段。
    我们自己的小网站不必多说,稍微一点维护,就要先关掉网站,这期间的时间都算所影响在线时长。本次阿里云故障假设按照半小时算,今年假设再没有其他故障,可用性就已经跌落到 4 个 9,99.99%
    2,赔付协议 很多人在故障期间都提到了怎么赔偿问题,居然真的有人说不会赔偿,显然不太可能,赔付协议是个很早就制定好的。防止的就是这种情况出现,而且今年还重新修订过一些细节。
    3,网站首页单独负载
    很多人都留意到了,阿里云故障期间,首页可以正常打开,只是其他功能和子页面故障,推测是针对首页高访问的一个优化方案,似乎是独立发布了首页,这个算是我在本次故障中的最大发现
    4,
    5,
    6,
    。。。

    本帖子的用意在于:欢迎各位运维大佬,指导下大项目发布过程要做的储备以及目的,欢迎各补充^^

    15 条回复    2018-07-02 13:46:21 +08:00
    opengps
        1
    opengps  
    OP
       2018-06-28 09:12:00 +08:00
    还有啥好的系统部署做法啊?
    int64ago
        2
    int64ago  
       2018-06-28 09:18:17 +08:00 via Android   ❤️ 1
    阿里云各个服务页面(控制台)其实都是独立部署的
    opengps
        3
    opengps  
    OP
       2018-06-28 09:30:17 +08:00
    @int64ago 这种一个网站拆分一大堆服务的结构,怎么实现的?有参考资料吗?
    int64ago
        4
    int64ago  
       2018-06-28 09:40:08 +08:00
    @opengps #3 几句话说不清的
    opengps
        5
    opengps  
    OP
       2018-06-28 09:47:22 +08:00
    @int64ago 用过一种,前后端分离,所有后端数据走的 webapi,每个服务一个 webapi。
    如果用这种实现,那就是一个前端集群,一大堆各种类别服务集群实现了,不知道阿里云网站是不是这种性质,阿里云首页能正常,猜想不出前端首页怎么实现单独一个集群
    opengps
        6
    opengps  
    OP
       2018-06-28 09:52:42 +08:00
    好像问与答节点不进入 v 站首页,没大佬过来指导。。。
    ivmm
        7
    ivmm  
       2018-06-28 09:54:26 +08:00
    两地四中心, 阿里云 + AWS (中国) 搞一套,不知道能不能建专线,哈哈
    opengps
        8
    opengps  
    OP
       2018-06-28 09:58:14 +08:00
    @ivmm 目前了解的似乎也就银行业务实现了两地多中心,我知道招商银行是南京深圳 2 地区部署。
    专线很贵,有生之年不知道有没有机会接触到这种项目。。。
    ivmm
        9
    ivmm  
       2018-06-28 10:09:40 +08:00   ❤️ 1
    @opengps

    看业务量了,业务量越多搞灾备的成本就越高

    要是一个小博客搞多地灾备简直不要太轻松
    TheBestSivir
        10
    TheBestSivir  
       2018-06-28 13:45:00 +08:00   ❤️ 1
    前端页面谈何负载?反正就是静态资源部署在 CDN 上呗。。。
    xx 外卖的 M 站都拆了 N 个页面分为 N 个独立,没啥原因,前端也要做团队的拆分和页面的拆分啊
    akira
        11
    akira  
       2018-06-28 14:18:20 +08:00
    阿里云的海外节点的控制台是独立的,但是不知道为什么也是进不去
    Miceeee
        12
    Miceeee  
       2018-06-28 14:30:47 +08:00
    弱弱的问一句,可以转载一下你的观点吗?
    opengps
        13
    opengps  
    OP
       2018-06-28 15:10:18 +08:00
    @Miceeee 欢迎,能被转发说明说的有点用处
    opengps
        14
    opengps  
    OP
       2018-06-28 15:11:30 +08:00
    @akira 我感觉这是某个中间件的整体故障,不然引发的影响不会这么广泛
    c0878
        15
    c0878  
       2018-07-02 13:46:21 +08:00   ❤️ 1
    总之从架构上消灭单点故障 这次 OSS 故障 NAS 故障 很多认为 OSS NAS 本身就是集群高可用不考虑单点故障的情况 却没有想到整个服务挂掉的可能性
    但是数据存储这块 做灾备的成本是很高的 可用性都是用钱堆起来
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2674 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 259ms · UTC 11:11 · PVG 19:11 · LAX 03:11 · JFK 06:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.