一张图说清告警值班 Oncall 的流程

120 天前
 laiwei

原文链接: https://flashcat.cloud/blog/oncall-concept/

1587 次点击
所在节点    程序员
3 条回复
hxndg
120 天前
写得不错。。。不过有个问题,这流程没啥用。。。。

比方说“告警集成”,“标签增强”这都是如果有故障出现就会自然而然具有的,适配日常的消息流
而“聚合降噪”,“告警抑制”这个是防止噪声出现,被 annoy 自然就会有
“值班轮班”,“认领”,“协同”是因为人手不足或者专业性不足
“升级”,这个是直接根据故障登记和灾备能力决定的

感觉也就“数据统计”有些用。。。。

总之是先有的自然而然的流程,才有的纸面的流程。。。。
laiwei
117 天前
@hxndg 你可以看看国外的 PagerDuty 案例,国内的 Flashduty 的案例。oncall 是一个现实问题,有标准解法。
hxndg
116 天前
@laiwei 我并不否认 oncall 是现实问题,有标准解法。
我想表达的是:信息化的前提是必须是现实先标准/信息化,电子化只是流程的最终结果。

我原先有几年做 infra ,写过流程信息化的代码,也做过流程自动化的内容。最麻烦的往往不是聚合或者认领,分诊啥的。而是第一步的可流程和可采集。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1068130

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX