V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
nangonglili
V2EX  ›  问与答

在运维管理过程中对于传染型的故障,不知道有没有什么好的方案呢?

  •  
  •   nangonglili · 2016-12-02 14:57:17 +08:00 · 1315 次点击
    这是一个创建于 2703 天前的主题,其中的信息可能已经有所发展或是发生改变。
    就是反复访问一个问题导致骨牌性的反应,应该怎么处理呢
    1 条回复    2016-12-02 16:00:53 +08:00
    cloudwise
        1
    cloudwise  
       2016-12-02 16:00:53 +08:00
    比如我们以一台服务器为单位,每分钟的告警分系统和网络统一来处理。(当然可以以收件人,业务关联为单位)。对于传染型的故障,比如网站报了 500 错误,那么我们发现 500 错误的时候,在告警的时候是不是可以让他去错误日志里收集关于相同 IP 的 error ,一起发送
    所以我们未来要做的就是要收集告警信息进行自动化处理,而不是通知运维上线处理。
    我们要脱离那种每天等着告警信息去处理故障,要主动出击,不要等到故障了再去处理,及时处理好了,那么时间成本也是很高的。我们在做监控的时候需要 考虑很多不可控的因素。在写代码的时候 要首先考虑异常状态,否则造成二次故障,是我们不愿意看到的。当故障 IP 2 小时内不丢包,我们就把他去掉。下次切换的时候就可以用到,反之亦然。这里提示下,对于这种时间周期可以使用 redis , expire 指定他的 ttl
    给大家一张图来理解下告警信息的分类


    我们要做到能自动化的尽量自动化,不能够自动化的我们要让他半自动。人工处理是最后的方案,因为是人就会犯错,尤其在业务出现异常,操作都是不可控的。推荐大家试试监控宝: http://www.jiankongbao.com
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3285 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:47 · PVG 08:47 · LAX 17:47 · JFK 20:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.