最近设计一个告警的产品,参考了开源的 alertmanager ,但是功能上面有一些疑问:
告警合并/分组:假设一台物理机宕机,这台物理机上面的虚拟机都有宕机告警,如果不分组的话,就会一次性发送多个宕机告警,这个确实不友好,所以可以按告警规则名称这个维度对告警进行合并,这个是合理的。但是除了按告警规则名称进行合并外,也想不到按其他维度进行合并告警的有意义案例。比如按数据中心这个维度进行合并的话,某个数据中心当了,一来概率极低,二来数据中心都宕了,我的告警系统应该也挂了。
告警抑制:比如某台机器宕机了,那么这台机器上面的服务不可用的告警就不发。但是实际情况是,机器宕机告警是发给 SRE ,服务不可用是发给服务开发的人,原则上不应该抑制,服务开发人员需要知道我的服务挂了。告警抑制功能目前我并没有想到真正合理的案例。
告警升级:比如某个服务有问题了,发出了告警,但是一直没人处理,一段时间后通知给到这个服务负责人的 leader 。这个功能虽然谈告警的时候一直有人谈,但实际上我没有遇到真正用到的场景,除非一个人想要离职了,否则一般不会不处理告警。所以这个功能有必要做吗?
我的疑问就是这三个功能,大家有实际的应用场景吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.