CDN 精准化实时监控:洞察秋毫的氪金“狗眼”

2015-08-25 16:50:19 +08:00
 UPYUN

昨天晚上,我们的 CTO 黄慧攀在云头条做了一个关于 UPYUN CDN 全网监控技术的主题分享,其中着重介绍了 UPYUN 自行开发的“狗眼”监控系统(不要太在意这个名字)。这个系统,是 UPYUN CDN 实时监控的关键基础。

下面是这次分享的现场内容。

[整理版在这里] :http://mp.weixin.qq.com/s?__biz=MjM5ODc5ODgyMw==&mid=210355109&idx=1&sn=7c93a8a25fbc9a52a168f5c877944b44#rd

欢迎大家评论。查看更多 UPYUN 技术现场分享请关注公众号 ( upaiyun )

——————————————————————————

UPYUN CDN 全网实时监控技术实践

今天跟大家分享的经验是:监控,这个在服务中尤其重要的环节。尤其是提供 7x24 不间断的云服务

我们的云服务有三块:

每个云服务的监控侧重点都不一样, CDN 这块重点强调的是性能和可用性。 我们用到了 听云(基调)和安全宝、 DnsPod 等,外围的服务监控。

而 zabbix 则是最基础的服务器监控了,这里就不对此做更多的介绍。但重点说说,它的不足之处:

另外一个是 Agent ,这个是我们自己写的 shell 脚本。主要是从服务器自身内部发现问题,并告警。如:本机的各个业务系统是否在正确运行,和当前服务器连接关键机房的网络质量等等。 缺点就是:如果自身网络挂了,它就无法告警了

但能根据自己的业务特点,做很多种健康检查。很灵活

第二个部分:数据中心

数据中心有两块大业务

这两个都是非常关键的云服务。去年我们被吐槽最多的就是云存储服务了

这里我们用到了 zabbix 来负责服务器硬件资源的监控,但这个远远不够。。。上面就提到它有很多缺点,无法满足我们的需求,所以我们自己开发了狗眼系统,来做服务监控。

它可以监控到我们某项服务的:

所以我们数据中心,每个子业务都做了狗眼的接入,以保障整个平台的稳定性。如:某个客户上传一个图片,并要求做缩略图存储。
那么就会牵扯到几个业务系统。

如果上传失败,或者上传很慢,我们一般情况下是找 zabbix 看看哪台服务器压力大。

这个确实是太拙计了...

尤其是在集群服务的情况下,单台服务器根本不反映集群的服务状态

所以狗眼的监控,我们就能准确的判断到哪个子业务的负载有问题,从而影响到了整个业务流程

比如说:云处理环节出问题了,影响到整个文件上传慢。那我们就能去检查云处理这个服务集群怎么个情况,是否因为当前的处理量过大, or 网络读写等情况

而有了“狗眼”之后,我们从原来的盲人摸象,进化为有了敏锐的“嗅觉”,能快速准确的定位为问题。另外呢,我们还有实时日志分析的系统。因为有些具体的错误信息,还是需要在日志里面体现出来的。

注意日志分析系统无法做全量,我们得有所选择。一般 200 OK 正常的请求日志没必要记录和处理的,我们这个日志监控目前是排错,所以我们只处理 code > 400 的记录。

给大家分享个脑图

我们把监控分了主要的 2 种角色, 1 、第三人称; 2 、第一人称;互相配合一起来做告警。期待 100% 无死角

脑图上标黑色线的,表示是该项监控的主要用途

DNSPod 的端口存活监控,就是为做自动容灾的

它会根据历史情况,判定当前这秒的数值是否偏差,异常。并做出告警,页面上就是某个值异常了。。。我的电脑在不停的叫 ing

我们有这么多个渠道给出告警信息,运维人员会发疯的。

并且还得避免狼来了的情况发生。所以我们很有必要对告警进行必要的去重、筛选

另外有个统一的告警平台,也方便维护。对于这些监控,最有用的是历史数据,在上面可以分析出异常来

如我们针对全国机房的链路情况,就有每 10 分钟的采样
采集到的数据要加以处理,才好利用起来

再上图介绍

很清晰的看到 120 多个边缘节点连接我们中转节点的网络速度,其中 4 个是有质量问题的

还能看到历史 48 小时的情况

有些机房,在晚高峰的时候会有机房总出口拥堵而导致性能下降。我们需要历史记录来做出判断

这个就更细致的,是根据节点的服务日志记录分析出来的。平均下载速度、下载速度大于 10mbps 的比例,和回源慢而影响的比例,等等

中间的柱状图还多个颜色混合 0.0 太复杂,就不跟大家解释了。毕竟这是我们家自己做的链路监控系统,外面米有的。

哦对了,在附加一个大家可能会感兴趣的 QA 吧:

————————————————————————————————————————————————

查看更多内容请关注 UPYUN 公众号。

[重要的另]

UPYUN 公众号及线上渠道长期征集高质量的技术专题类原创文章,如果你是一位业余的技术写手,或者仅仅是有写文章的兴趣,可以联系邮箱: dongying.wang@upai.com ,就具体的投稿事宜和我们沟通。

合适的文章将会在保留作者一切权益的前提下,通过我们的线上渠道进行广泛传播,回报更不会少,同样也欢迎行业观察类、产品类的高质量文章

望周知。

二维码如下,也可以通过微信公众平台和我沟通,谢谢

5321 次点击
所在节点    CDN
29 条回复
Flygoat
2015-08-25 17:06:35 +08:00
然而这个对于大厂很有用,小厂运维盯着就是了。
UPYUN
2015-08-25 17:39:57 +08:00
zhanghb
2015-08-25 18:36:27 +08:00
云服务最主要是能做到实时监控到各个方面的服务状况, 并且出现状况后能快速响应和定位修复.
lhbc
2015-08-25 19:42:19 +08:00
我们也在做类似的工作,感谢分享,期待开源。
zixianlei
2015-08-25 21:19:18 +08:00
如果我把所有图片放在 upyun ,每天流量大约用 40g ,有没有更便宜的定价啊? 1000g 大约 290 元,求方案
dream7758521
2015-08-25 22:36:59 +08:00
就说一句监控挂了,叫做瞎了狗眼
lsylsy2
2015-08-25 22:54:39 +08:00
@zixianlei 日 40G 月 1.2T 并不能算非常大的量……我要是让你去买别家带宽计费的 CDN 楼主会不会打我……然而根据我的实际经验, 1M 带宽大概每天能跑 5G 流量(理论能跑 10G ,正常网站利用率 50%左右),价格能便宜一些。
zixianlei
2015-08-25 23:27:05 +08:00
@lsylsy2 我目前是 3m 的带宽,图片放在 upyun ,以前把一部分图片放在美国,近期转移到香港,节省了很多流量。如果使用 360 解析全缓存,图片放在国内,似乎可行。。。过段时间折腾折腾。。
lsylsy2
2015-08-25 23:49:27 +08:00
@zixianlei 如果你重视你的网站,就尽量不要吃免费的午餐(比如国内免费 CDN ),目前没有看到哪个是靠谱的。当然,又拍免费送的流量这种“免费用户除了量,其它和收费用户一视同仁”的东西还是可以的
geekzu
2015-08-27 12:32:49 +08:00
话说你们能优化下国外的 DNS 么,香港解析去美国,美国解析去国内
UPYUN
2015-08-28 08:51:49 +08:00
@geekzu 现在这个工作正在进行中
UPYUN
2015-08-30 11:50:39 +08:00
@le0rn0
@Xuanwo
@JeffreyLau
@sorrycc
@franklight
@jkeylu
@Tink

几位,对于这种不合理封号的问题,我们在着手进行改善,也一直在处理。 10 月份左右我们新的管理系统上线后,这种问题会杜绝掉,此外注册和计费方面大家反映比较集中的一些问题也将得到针对性解决。望周知和谅解。

请发您的帐号到 dongying.wang@upai.com ,我们第一时间集中处理。

最后,对于这次动作,其实我们的初衷也主要是给用户更多实惠,并没有任何恶意。并且我们无论是 CDN 还是云存储和处理都依照用户诉求在不断地进行优化,我们是真心想努力给用户创造更好服务,但可能在这个努力的过程中会出现一些不足,我们也是想办法在解决,请放心。
UPYUN
2015-08-30 12:50:41 +08:00
@mikj

请发邮件到 dongying.wang@upai.com 注明您的帐号,我们会下个工作日第一时间进行处理,谢谢。
UPYUN
2015-08-30 14:57:29 +08:00
@viko16
@skyfix
@lazyyz

我们十月份左右新管理后台上线以后,这种不合理的帐号封禁问题会得到解决。

对于给您造成的不便请谅解,我们目前正在着手处理这类问题,请发邮件到 dongying.wang@upai.com ,注明您的帐号,我们下个工作日第一时间会集中处理。
UPYUN
2015-08-31 10:27:11 +08:00
@cysnap

请发邮件到 dongying.wang@upai.com 注明您的帐号,我们会下个工作日第一时间进行处理,谢谢。

10 月份左右我们新的管理系统上线后,无故封号问题会杜绝掉,此外注册和计费方面大家反映比较集中的一些问题也将得到针对性解决。望周知和谅解。
UPYUN
2015-09-02 09:36:07 +08:00
@qgy18
@Kilerd

对于这种不合理封号的问题,我们在着手进行改善,也一直在处理。 10 月份左右我们新的管理系统上线后,这种问题会杜绝掉,此外注册和计费方面大家反映比较集中的一些问题也将得到针对性解决。望周知和谅解。
UPYUN
2015-09-02 09:46:07 +08:00
@suifeng

麻烦发邮件到 dongying.wang@upai.com 注明您的账号,我们会第一时间处理谢谢。

对于这种反响比较强烈的封号问题,我们新的管理系统在 10 月左右上线后,会杜绝掉,望周知~
UPYUN
2015-09-02 09:48:45 +08:00
@ianisme

我们并不会删除用户的账号,目前的问题是会有一些不合理封号的现象,我们现在正在专人着手处理。 10 月份左右新的管理系统上线之后这类封号问题会得到解决。
UPYUN
2015-09-02 10:00:00 +08:00
@goofansu

这个问题我们近期会解决,请放心。
UPYUN
2015-09-02 11:06:45 +08:00
@Kilerd
@fork3rt
@sb
@young91

对于您账号被无故封禁表示抱歉,我们目前正在专人集中处理这个事情,请发邮件到 dongying.wang@upai.com 注明您的账号,我们会第一时间处理。

对于不合理封号这种反应比较强烈的问题,我们 10 月份左右上线的新管理系统将给予解决,会杜绝掉这个问题。我们也是一直努力在回应用户的诉求,排期可能有一些延迟,但进度很快会赶上的,望周知和谅解。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/215891

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX