V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
如果你希望学习 CDN 相关知识,那么建议你可以遍历以下软件的说明文档。
NGINX
cURL
UPYUN
V2EX  ›  CDN

CDN 精准化实时监控:洞察秋毫的氪金“狗眼”

  •  
  •   UPYUN · 2015-08-25 16:50:19 +08:00 · 5321 次点击
    这是一个创建于 3375 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨天晚上,我们的 CTO 黄慧攀在云头条做了一个关于 UPYUN CDN 全网监控技术的主题分享,其中着重介绍了 UPYUN 自行开发的“狗眼”监控系统(不要太在意这个名字)。这个系统,是 UPYUN CDN 实时监控的关键基础。

    下面是这次分享的现场内容。

    [整理版在这里] :http://mp.weixin.qq.com/s?__biz=MjM5ODc5ODgyMw==&mid=210355109&idx=1&sn=7c93a8a25fbc9a52a168f5c877944b44#rd

    欢迎大家评论。查看更多 UPYUN 技术现场分享请关注公众号 ( upaiyun )

    ——————————————————————————

    UPYUN CDN 全网实时监控技术实践

    今天跟大家分享的经验是:监控,这个在服务中尤其重要的环节。尤其是提供 7x24 不间断的云服务

    我们的云服务有三块:

    • CDN

    • 云存储

    • 云处理

    每个云服务的监控侧重点都不一样, CDN 这块重点强调的是性能和可用性。 我们用到了 听云(基调)和安全宝、 DnsPod 等,外围的服务监控。

    而 zabbix 则是最基础的服务器监控了,这里就不对此做更多的介绍。但重点说说,它的不足之处:

    • 实时性差

    • 无法方便的对业务进行监控(需要做大量对接工作)

    另外一个是 Agent ,这个是我们自己写的 shell 脚本。主要是从服务器自身内部发现问题,并告警。如:本机的各个业务系统是否在正确运行,和当前服务器连接关键机房的网络质量等等。 缺点就是:如果自身网络挂了,它就无法告警了

    但能根据自己的业务特点,做很多种健康检查。很灵活

    第二个部分:数据中心

    数据中心有两块大业务

    • 云存储

    • 云处理

    这两个都是非常关键的云服务。去年我们被吐槽最多的就是云存储服务了

    这里我们用到了 zabbix 来负责服务器硬件资源的监控,但这个远远不够。。。上面就提到它有很多缺点,无法满足我们的需求,所以我们自己开发了狗眼系统,来做服务监控。

    它可以监控到我们某项服务的:

    • 吞吐量

    • 平均处理耗时

    • 最重要的是,它能做到秒级告警

    所以我们数据中心,每个子业务都做了狗眼的接入,以保障整个平台的稳定性。如:某个客户上传一个图片,并要求做缩略图存储。
    那么就会牵扯到几个业务系统。

    • API

    • 云处理

    • 云存储

    如果上传失败,或者上传很慢,我们一般情况下是找 zabbix 看看哪台服务器压力大。

    这个确实是太拙计了...

    尤其是在集群服务的情况下,单台服务器根本不反映集群的服务状态

    所以狗眼的监控,我们就能准确的判断到哪个子业务的负载有问题,从而影响到了整个业务流程

    比如说:云处理环节出问题了,影响到整个文件上传慢。那我们就能去检查云处理这个服务集群怎么个情况,是否因为当前的处理量过大, or 网络读写等情况

    而有了“狗眼”之后,我们从原来的盲人摸象,进化为有了敏锐的“嗅觉”,能快速准确的定位为问题。另外呢,我们还有实时日志分析的系统。因为有些具体的错误信息,还是需要在日志里面体现出来的。

    注意日志分析系统无法做全量,我们得有所选择。一般 200 OK 正常的请求日志没必要记录和处理的,我们这个日志监控目前是排错,所以我们只处理 code > 400 的记录。

    给大家分享个脑图

    我们把监控分了主要的 2 种角色, 1 、第三人称; 2 、第一人称;互相配合一起来做告警。期待 100% 无死角

    脑图上标黑色线的,表示是该项监控的主要用途

    DNSPod 的端口存活监控,就是为做自动容灾的

    它会根据历史情况,判定当前这秒的数值是否偏差,异常。并做出告警,页面上就是某个值异常了。。。我的电脑在不停的叫 ing

    我们有这么多个渠道给出告警信息,运维人员会发疯的。

    并且还得避免狼来了的情况发生。所以我们很有必要对告警进行必要的去重、筛选

    另外有个统一的告警平台,也方便维护。对于这些监控,最有用的是历史数据,在上面可以分析出异常来

    如我们针对全国机房的链路情况,就有每 10 分钟的采样
    采集到的数据要加以处理,才好利用起来

    再上图介绍

    很清晰的看到 120 多个边缘节点连接我们中转节点的网络速度,其中 4 个是有质量问题的

    还能看到历史 48 小时的情况

    有些机房,在晚高峰的时候会有机房总出口拥堵而导致性能下降。我们需要历史记录来做出判断

    这个就更细致的,是根据节点的服务日志记录分析出来的。平均下载速度、下载速度大于 10mbps 的比例,和回源慢而影响的比例,等等

    中间的柱状图还多个颜色混合 0.0 太复杂,就不跟大家解释了。毕竟这是我们家自己做的链路监控系统,外面米有的。

    • The End -

    哦对了,在附加一个大家可能会感兴趣的 QA 吧:

    • Q :狗眼只是定位于自用?之后会对外 商用么? 另外,为什么取“狗眼”这个名字?

    • A :目前是仅自用,未来打算开源发布。主要是意在一种屌丝心态吧。。

    ————————————————————————————————————————————————

    查看更多内容请关注 UPYUN 公众号。

    [重要的另]

    UPYUN 公众号及线上渠道长期征集高质量的技术专题类原创文章,如果你是一位业余的技术写手,或者仅仅是有写文章的兴趣,可以联系邮箱: [email protected] ,就具体的投稿事宜和我们沟通。

    合适的文章将会在保留作者一切权益的前提下,通过我们的线上渠道进行广泛传播,回报更不会少,同样也欢迎行业观察类、产品类的高质量文章

    望周知。

    二维码如下,也可以通过微信公众平台和我沟通,谢谢

    第 1 条附言  ·  2015-08-25 18:31:21 +08:00

    不好意思,第三张图中的 "DnsPod “写成了” DndPod",现加以修正。

    修正图如下:

    29 条回复    2015-09-30 11:32:53 +08:00
    Flygoat
        1
    Flygoat  
       2015-08-25 17:06:35 +08:00
    然而这个对于大厂很有用,小厂运维盯着就是了。
    UPYUN
        2
    UPYUN  
    OP
       2015-08-25 17:39:57 +08:00
    zhanghb
        3
    zhanghb  
       2015-08-25 18:36:27 +08:00
    云服务最主要是能做到实时监控到各个方面的服务状况, 并且出现状况后能快速响应和定位修复.
    lhbc
        4
    lhbc  
       2015-08-25 19:42:19 +08:00
    我们也在做类似的工作,感谢分享,期待开源。
    zixianlei
        5
    zixianlei  
       2015-08-25 21:19:18 +08:00 via Android
    如果我把所有图片放在 upyun ,每天流量大约用 40g ,有没有更便宜的定价啊? 1000g 大约 290 元,求方案
    dream7758521
        6
    dream7758521  
       2015-08-25 22:36:59 +08:00 via Android
    就说一句监控挂了,叫做瞎了狗眼
    lsylsy2
        7
    lsylsy2  
       2015-08-25 22:54:39 +08:00
    @zixianlei 日 40G 月 1.2T 并不能算非常大的量……我要是让你去买别家带宽计费的 CDN 楼主会不会打我……然而根据我的实际经验, 1M 带宽大概每天能跑 5G 流量(理论能跑 10G ,正常网站利用率 50%左右),价格能便宜一些。
    zixianlei
        8
    zixianlei  
       2015-08-25 23:27:05 +08:00 via Android
    @lsylsy2 我目前是 3m 的带宽,图片放在 upyun ,以前把一部分图片放在美国,近期转移到香港,节省了很多流量。如果使用 360 解析全缓存,图片放在国内,似乎可行。。。过段时间折腾折腾。。
    lsylsy2
        9
    lsylsy2  
       2015-08-25 23:49:27 +08:00
    @zixianlei 如果你重视你的网站,就尽量不要吃免费的午餐(比如国内免费 CDN ),目前没有看到哪个是靠谱的。当然,又拍免费送的流量这种“免费用户除了量,其它和收费用户一视同仁”的东西还是可以的
    geekzu
        10
    geekzu  
       2015-08-27 12:32:49 +08:00
    话说你们能优化下国外的 DNS 么,香港解析去美国,美国解析去国内
    UPYUN
        11
    UPYUN  
    OP
       2015-08-28 08:51:49 +08:00 via iPhone
    @geekzu 现在这个工作正在进行中
    UPYUN
        12
    UPYUN  
    OP
       2015-08-30 11:50:39 +08:00 via iPhone
    @le0rn0
    @Xuanwo
    @JeffreyLau
    @sorrycc
    @franklight
    @jkeylu
    @Tink

    几位,对于这种不合理封号的问题,我们在着手进行改善,也一直在处理。 10 月份左右我们新的管理系统上线后,这种问题会杜绝掉,此外注册和计费方面大家反映比较集中的一些问题也将得到针对性解决。望周知和谅解。

    请发您的帐号到 [email protected] ,我们第一时间集中处理。

    最后,对于这次动作,其实我们的初衷也主要是给用户更多实惠,并没有任何恶意。并且我们无论是 CDN 还是云存储和处理都依照用户诉求在不断地进行优化,我们是真心想努力给用户创造更好服务,但可能在这个努力的过程中会出现一些不足,我们也是想办法在解决,请放心。
    UPYUN
        13
    UPYUN  
    OP
       2015-08-30 12:50:41 +08:00 via iPhone
    @mikj

    请发邮件到 [email protected] 注明您的帐号,我们会下个工作日第一时间进行处理,谢谢。
    UPYUN
        14
    UPYUN  
    OP
       2015-08-30 14:57:29 +08:00 via iPhone
    @viko16
    @skyfix
    @lazyyz

    我们十月份左右新管理后台上线以后,这种不合理的帐号封禁问题会得到解决。

    对于给您造成的不便请谅解,我们目前正在着手处理这类问题,请发邮件到 [email protected] ,注明您的帐号,我们下个工作日第一时间会集中处理。
    UPYUN
        15
    UPYUN  
    OP
       2015-08-31 10:27:11 +08:00
    @cysnap

    请发邮件到 [email protected] 注明您的帐号,我们会下个工作日第一时间进行处理,谢谢。

    10 月份左右我们新的管理系统上线后,无故封号问题会杜绝掉,此外注册和计费方面大家反映比较集中的一些问题也将得到针对性解决。望周知和谅解。
    UPYUN
        16
    UPYUN  
    OP
       2015-09-02 09:36:07 +08:00
    @qgy18
    @Kilerd

    对于这种不合理封号的问题,我们在着手进行改善,也一直在处理。 10 月份左右我们新的管理系统上线后,这种问题会杜绝掉,此外注册和计费方面大家反映比较集中的一些问题也将得到针对性解决。望周知和谅解。
    UPYUN
        17
    UPYUN  
    OP
       2015-09-02 09:46:07 +08:00
    @suifeng

    麻烦发邮件到 [email protected] 注明您的账号,我们会第一时间处理谢谢。

    对于这种反响比较强烈的封号问题,我们新的管理系统在 10 月左右上线后,会杜绝掉,望周知~
    UPYUN
        18
    UPYUN  
    OP
       2015-09-02 09:48:45 +08:00
    @ianisme

    我们并不会删除用户的账号,目前的问题是会有一些不合理封号的现象,我们现在正在专人着手处理。 10 月份左右新的管理系统上线之后这类封号问题会得到解决。
    UPYUN
        19
    UPYUN  
    OP
       2015-09-02 10:00:00 +08:00
    @goofansu

    这个问题我们近期会解决,请放心。
    UPYUN
        20
    UPYUN  
    OP
       2015-09-02 11:06:45 +08:00
    @Kilerd
    @fork3rt
    @sb
    @young91

    对于您账号被无故封禁表示抱歉,我们目前正在专人集中处理这个事情,请发邮件到 [email protected] 注明您的账号,我们会第一时间处理。

    对于不合理封号这种反应比较强烈的问题,我们 10 月份左右上线的新管理系统将给予解决,会杜绝掉这个问题。我们也是一直努力在回应用户的诉求,排期可能有一些延迟,但进度很快会赶上的,望周知和谅解。
    UPYUN
        21
    UPYUN  
    OP
       2015-09-02 11:17:01 +08:00
    @djyde

    请发邮件到 [email protected] 注明您的用户名,我们会第一时间处理,谢谢!
    UPYUN
        22
    UPYUN  
    OP
       2015-09-02 12:17:00 +08:00
    @manhan9100

    请发邮件到 [email protected] 注明您的用户名,我们会第一时间处理,谢谢!

    对于这类问题我们现在在集中解决, 10 月份左右新的管理系统上线后就会杜绝掉。
    UPYUN
        23
    UPYUN  
    OP
       2015-09-02 12:18:46 +08:00
    @yangpai

    10 月份我们的新管理系统就将上线,届时这类无故封号的问题会得到解决,请放心。
    yangpai
        24
    yangpai  
       2015-09-02 12:22:36 +08:00
    @UPYUN 为什么封账号?无故封账号?你们敢给一个解释吗,总有一个解释吧
    UPYUN
        25
    UPYUN  
    OP
       2015-09-02 12:24:49 +08:00
    @yangpai 现行的账号管理规则有一点不合理的地方,新系统上线后会修正。
    UPYUN
        26
    UPYUN  
    OP
       2015-09-02 12:26:12 +08:00
    @yxzblue

    这类问题我们在专人集中处理, 10 月份新的管理系统上线后会解决掉,请发邮件到 [email protected] 注明您的账号,我们第一时间给您解决,谢谢。
    yangpai
        27
    yangpai  
       2015-09-02 12:26:37 +08:00
    @UPYUN 这不是废话吗?是说防止某部门查你们水表,因为你们有些用户涉及违法使用吗?还是别的原因,还是就是说你们的机制就是只要不使用,管他是谁的账号都封掉?总有个解释吧 大哥
    mikj
        28
    mikj  
       2015-09-27 12:11:17 +08:00
    我只能呵呵, 一直以不合理帐号为借口, 难道有段时间没使用就是不合理, 是不是和某共匪一样,要不要证明 我就是我呀,不知道你们的客户管理部门是怎么想的,大家也算经常上网,经常注册帐号, 也没那个网站长时间不使用就封禁账户,就算是 freedns.afraid.org 长时间不登录,也会邮件提醒,忘记登录了 再次登录验证邮件就好了。不针对任何人,这是你们的产品在刚刚出来的时候,跟风申请帐号封掉, 然后再出什么联盟有弄了个专门博客帐号,有段时间又封掉,真的很奇怪。 我可以说没有做过任何违法,和违反你们的 tos 。只是说出很多用户的心声,你们做产品收费是无可厚非,如果自己不革命就会有其它产品替代来革命。
    Darkholme
        29
    Darkholme  
       2015-09-30 11:32:53 +08:00
    @mikj 某匪点赞~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3194 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:44 · PVG 20:44 · LAX 04:44 · JFK 07:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.