建设 OnCall 值班平台的方法,全在这个小册子里了!

339 天前
 laiwei

市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios 、Zabbix 、Open-Falcon 、Nightingale 、Grafana 、Prometheus 、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但有云监控,还有 ARMS ,还有 SLS 。

大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix ,Kubernetes 的监控可能用的 Prometheus ( Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale ,日志的监控可能用的 Elastalert ,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。

监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。

对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分别进行探讨

总结了一本关于 OnCall 值班平台建设的小册子,下载地址如下,开放免费下载啦,欢迎查阅哈:

https://download.flashcat.cloud/flashduty-white-paper-v1.pdf

573 次点击
所在节点    推广
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/959863

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX