在运维管理过程中对于传染型的故障，不知道有没有什么好的方案呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3428 天前的主题，其中的信息可能已经有所发展或是发生改变。

就是反复访问一个问题导致骨牌性的反应,应该怎么处理呢

骨牌性

传染型

运维

故障

1 条回复 • 2016-12-02 16:00:53 +08:00

cloudwise

2016 年 12 月 2 日

比如我们以一台服务器为单位，每分钟的告警分系统和网络统一来处理。（当然可以以收件人，业务关联为单位）。对于传染型的故障，比如网站报了 500 错误，那么我们发现 500 错误的时候，在告警的时候是不是可以让他去错误日志里收集关于相同 IP 的 error ，一起发送
所以我们未来要做的就是要收集告警信息进行自动化处理，而不是通知运维上线处理。
我们要脱离那种每天等着告警信息去处理故障，要主动出击，不要等到故障了再去处理，及时处理好了，那么时间成本也是很高的。我们在做监控的时候需要考虑很多不可控的因素。在写代码的时候要首先考虑异常状态，否则造成二次故障，是我们不愿意看到的。当故障 IP 2 小时内不丢包，我们就把他去掉。下次切换的时候就可以用到，反之亦然。这里提示下，对于这种时间周期可以使用 redis ， expire 指定他的 ttl
给大家一张图来理解下告警信息的分类

我们要做到能自动化的尽量自动化，不能够自动化的我们要让他半自动。人工处理是最后的方案，因为是人就会犯错，尤其在业务出现异常，操作都是不可控的。推荐大家试试监控宝： http://www.jiankongbao.com