V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
laiwei
V2EX  ›  推广

建设 OnCall 值班平台的方法,全在这个小册子里了!

  •  
  •   laiwei · 336 天前 · 572 次点击
    这是一个创建于 336 天前的主题,其中的信息可能已经有所发展或是发生改变。

    市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios 、Zabbix 、Open-Falcon 、Nightingale 、Grafana 、Prometheus 、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但有云监控,还有 ARMS ,还有 SLS 。

    大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix ,Kubernetes 的监控可能用的 Prometheus ( Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale ,日志的监控可能用的 Elastalert ,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。

    监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。

    图片

    对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分别进行探讨

    总结了一本关于 OnCall 值班平台建设的小册子,下载地址如下,开放免费下载啦,欢迎查阅哈:

    https://download.flashcat.cloud/flashduty-white-paper-v1.pdf

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1021 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:10 · PVG 06:10 · LAX 15:10 · JFK 18:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.