在运维管理过程中对于传染型的故障，不知道有没有什么好的方案呢？

cloudwise

2016-12-02 16:00:53 +08:00

比如我们以一台服务器为单位，每分钟的告警分系统和网络统一来处理。（当然可以以收件人，业务关联为单位）。对于传染型的故障，比如网站报了 500 错误，那么我们发现 500 错误的时候，在告警的时候是不是可以让他去错误日志里收集关于相同 IP 的 error ，一起发送
所以我们未来要做的就是要收集告警信息进行自动化处理，而不是通知运维上线处理。
我们要脱离那种每天等着告警信息去处理故障，要主动出击，不要等到故障了再去处理，及时处理好了，那么时间成本也是很高的。我们在做监控的时候需要考虑很多不可控的因素。在写代码的时候要首先考虑异常状态，否则造成二次故障，是我们不愿意看到的。当故障 IP 2 小时内不丢包，我们就把他去掉。下次切换的时候就可以用到，反之亦然。这里提示下，对于这种时间周期可以使用 redis ， expire 指定他的 ttl
给大家一张图来理解下告警信息的分类

我们要做到能自动化的尽量自动化，不能够自动化的我们要让他半自动。人工处理是最后的方案，因为是人就会犯错，尤其在业务出现异常，操作都是不可控的。推荐大家试试监控宝： http://www.jiankongbao.com

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/324825

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.