不要小瞧了监控这件事

2014-11-06 23:48:44 +08:00
 blueking
这个世界上开源和收费的监控系统实在是太多了,而不是太少了。无论是传统的nagios,ganglia,还是所谓的云监控系统。它们的工作方式其实都差不多,安装一个agent,上报数据,然后花花绿绿的图表就显示在web界面上了。无论这些系统如何包装,前端写得多么漂亮,一看截图十有八九图例是“cpu1”,“cpu2”。cpu使用率,内存,磁盘,仿佛把这些东西的曲线画在一个web界面上,监控工作就完成了似的。好吧,你有cpu使用率曲线图了,so what?

监控是多学科交叉非常有深度的课题。其职责一般落在一个部门里的运维身上来落实,比如我这样的人。我们知道技术里一流的人才去做架构师了,二流的人才去做后台开发了,三流的人才比如我这样的就来搞运维了。搞好监控是一项与运维传统技能(能熬夜肯加班,虎背熊腰扛机器)非常不match的工作,它包含四个方面的内容:

1、根据目标选择监控对象和策略
2、数据上报与实时统计
3、异常检测
4、由人或者系统来处理

其中数据上报与实时统计就需要非常综合的工程能力。简单的搞个小脚本往中央的一台开源监控系统定时报个数就行了,表面上很简单。但是大型系统监控往往对应到了jd里的所谓“大数据”经验。你需要从选择hbase还是postgresql,选择storm还是spark,选择metaq开始kafka,选择flume还是logstash这些开始,然后经过一个漫长的学习过程,最终学会了如何fancy而优雅地“数数”。其实我一直很纳闷的是,怎么有这么多牛b的人写这么多牛b的系统来干小学生都会的数数工作。

异常检测是一件表面上非常简单的活。比如给定一颗cpu,平时都是40%的占用率。那好,我配置一个80%的阈值,超过就告警,完事了。但如果你要监控的对象一根一天上下变化非常剧烈的曲线呢?早上可能只有几千,中午和晚上可以到几十万。这个时候去检测异常就不再是一个阈值这么简单的工作了。这项工作的学名叫Outlier Detection,按照分类来说属于机器学习,自打有计算机这门学科以来从简单的自回归到现在的SVM神马的,paper是层出不穷的。简单来说,这是一片有着科学家头衔人群从事的领域。

即便是发条告警消息这么简单的一件事,也事关cognitive bias。有人还研究飞机驾驶舱的告警消息设计是如何导致大西洋坠机事件的。还有花花绿绿的仪表盘,如何设计好以更好利用人眼的认知方式以传达信息,这也是一门很深的学问,叫data visualization。这个领域有一家大名鼎鼎的公司叫tableau,其创始人以前是在好莱坞搞动漫渲染的。凌晨四点需要叫运维起床尿尿的系统,必须重视人机交互这块的。给头脑不清醒的人设计界面一个场景就是club里给醉汉们用的点唱机,另外一个我所知的场景就是接到电话之后愤怒起床来定位问题的运维了。

故障处理就是个擦屁股的活,这话一点没错。那些架构师们设计了一个高可用的架构之后,他们的工作就高大上的完成了。故事是这样的,一台application server挂了,前段nginx检测到自动把这台application server踢掉,用户完全不受影响。然后后台开发们就可以光荣自豪的说,前段机器哈随便挂的说。运维苦哈哈的嘟囔着,尼玛又挂了。一个集群里挂个一两台application server可能是没啥关系的,但是挂多了呢,雪崩了呢?挂掉的机器咋处理,放那晾干么?故障及不还得修,不还是得人来管?运维们就像唐顿庄园里地下室的仆人们一样,做一些卑微但是必要又无人欣赏的工作。更加不要说,没有做高可用的架构了。一台登陆服务器挂了,cao,无论你是在陪女朋友逛街,还是第一次相亲,都得飞奔到有3g信号的地方开始ssh。

好像少了什么。哦,忘记说了。这是篇招聘帖,老板说了再招不来人我就要滚蛋了。如果你对以上工作内容的任何一条感兴趣,请联系我: blueking.jobs@gmail.com。没有薪资范围的招聘都是耍流氓,我就耍了,怎么的?有本事来找我啊,联系地址:腾讯游戏,深圳南山科兴科学园。是的,英雄联盟,穿越火线,天天酷跑就是我们部门负责运维的。经常挂,进不了大区?是的……所以我们要招人好好来搞嘛。anyway,call me,约吗?
16823 次点击
所在节点    酷工作
80 条回复
zy2013
2014-11-07 08:32:59 +08:00
赞,也做过监控,感觉要学习的地方还有好多
ryanking8215
2014-11-07 08:38:07 +08:00
恩,老有劲额。
就是为啥是gmail,不是qq mail或者tencent mail?
trdcaz
2014-11-07 08:44:19 +08:00
深有感触,不过深圳太远,不想去
leassy
2014-11-07 08:44:23 +08:00
我们公司的DBA跑了,然后我现在就又要搞服务器又要写程序,弄得我整个人都醉了,醉了~~~
neutrino
2014-11-07 09:06:34 +08:00
回复:“不约,叔叔我们不约。”
eric227
2014-11-07 09:12:54 +08:00
哈哈哈哈哈哈 写得好!
catmic27
2014-11-07 09:19:34 +08:00
屌丝装机男看的泪流满面,不得不赞一个。
haoba
2014-11-07 09:21:02 +08:00
想约啊
suckli
2014-11-07 09:21:35 +08:00
9楼的同事你好
hbkdsm
2014-11-07 09:23:20 +08:00
招聘贴能写成软文类型的也是人才了!
soli
2014-11-07 09:31:33 +08:00
有点意思。
Tankpt
2014-11-07 09:37:07 +08:00
赞。。。。。。
Tinet
2014-11-07 09:40:34 +08:00
对此还是很有体会的。
roadli
2014-11-07 09:43:57 +08:00
同为苦逼的运维在这里赞一个,说的深得我心啊,可惜深圳太远
Catstyle
2014-11-07 09:44:05 +08:00
同为DevOps的默默up一下
xidianlz
2014-11-07 09:48:11 +08:00
看头像是蓝鲸,项目貌似也是蓝鲸吧,周末投个简历看看~
:)
WildCat
2014-11-07 09:53:50 +08:00
lazyphp
2014-11-07 09:54:06 +08:00
腾讯的招聘,竟然耍流氓了。好吧,我是进不了的。哈哈~~不过这招聘太有意思了。我还以为是说运维之苦。
halfbloodrock
2014-11-07 09:56:24 +08:00
我去。。。LZ是我们合作方啊。。。。
CMGS
2014-11-07 10:08:11 +08:00
这个招聘不错……我也在招类似的人- -

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/144542

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX