市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios 、Zabbix 、Open-Falcon 、Nightingale 、Grafana 、Prometheus 、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但有云监控,还有 ARMS ,还有 SLS 。
大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix ,Kubernetes 的监控可能用的 Prometheus ( Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale ,日志的监控可能用的 Elastalert ,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。
监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。
对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分别进行探讨
总结了一本关于 OnCall 值班平台建设的小册子,下载地址如下,开放免费下载啦,欢迎查阅哈:
https://download.flashcat.cloud/flashduty-white-paper-v1.pdf