V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
duanlian
V2EX  ›  DevOps

各位好,目前大多的互联网企业使用的服务器都是市面上的公有云服务,阿里云,腾讯云, ucloud 之类的,请问大家是如何解决云主机宕机及时收到通知的呢?

  •  
  •   duanlian · 2019-02-16 17:43:00 +08:00 · 1356 次点击
    这是一个创建于 2110 天前的主题,其中的信息可能已经有所发展或是发生改变。
    尤其是半夜和节假日,没有值班人员的时候,非常头痛,单纯的依靠云厂商的通知,一般不会第一时间通知到,会有一定的延迟;自己处理的方式是用的 zabbix 的 fping 服务,可靠性也不是好,尤其是海外的云主机,网络抖动,GFW 之类的回有影响,产生误报。求解决方案。
    14 条回复    2019-05-10 16:52:08 +08:00
    yuhr123
        1
    yuhr123  
       2019-02-16 17:58:11 +08:00 via iPhone
    想到了几个关键词供参考:热备,负载均衡,CDN 这些公有云都有方案
    wongskay
        2
    wongskay  
       2019-02-16 17:58:36 +08:00 via iPhone
    我也有该需求,例如网站挂了怎么第一时间知道。
    Athrob
        3
    Athrob  
       2019-02-16 17:58:50 +08:00 via iPhone
    做个程序放服务器,定时上报我还活着。超几次没报就认为死了。
    dazhangpan
        4
    dazhangpan  
       2019-02-16 19:07:24 +08:00
    感觉 V2EX 的工单比他们的通知邮件要快,不如做个监控 V 站的脚本?
    duanlian
        5
    duanlian  
    OP
       2019-02-16 19:26:47 +08:00
    @wongskay 网站这个还是比较好办的,监控首页状态,监控关键的业务接口都行;
    duanlian
        6
    duanlian  
    OP
       2019-02-16 19:28:01 +08:00
    @dazhangpan 每次延迟收到都要命,晚上睡一觉几个小时了。。。
    opengps
        7
    opengps  
       2019-02-16 19:52:27 +08:00
    说下具体服务看看,我感觉各种云监控已经够用了,我现在用的是阿里云的云监控。也有自己写的 tcp 服务器程序成品支持不够理想,就自己有特定的请求返回,自己做的外网监控端
    luozic
        8
    luozic  
       2019-02-16 19:55:12 +08:00 via iPhone
    冗余,无论是云还是托管还是啥,恰当的冗余是可靠性第一定律。 实际生活里面的工程也是一样。
    AlexaZhou
        9
    AlexaZhou  
       2019-02-16 20:09:55 +08:00
    之前用过云智慧的监控宝服务,很好用,专门针对这种需求,网站挂了让你比老板先知道,推荐一把
    wongskay
        10
    wongskay  
       2019-02-16 22:07:15 +08:00 via iPhone
    @AlexaZhou 网站挂了第一时间比老板知道真的很重要。。。。
    raynor2011
        11
    raynor2011  
       2019-02-17 04:49:35 +08:00 via Android
    高可用,挂一台机器不影响正常运行
    theks
        12
    theks  
       2019-02-17 11:59:54 +08:00 via Android
    机器挂掉前是有预兆的,比如 cpu、内存使用率,网络流量等。
    在用阿里云,自带云监控功能,可以监控 ecs、rds 系统资源到达某个阈值就报警。另外有网站监控,定时访问某个网站,如果多个监测点同时都访问不了就报警。
    阿里云的云监控每月有 1000 条免费报警短信的额度,够用了。
    wkl17
        13
    wkl17  
       2019-02-18 01:59:20 +08:00
    @theks 只在阿里注册过域名,是否也有免费 1000 条报警短信?还是必须有开通 ECS 等才有?
    zong400
        14
    zong400  
       2019-05-10 16:52:08 +08:00
    就算你各种监控都做好,怎么保证你晚上睡觉时候收到一条短信就会醒,很早以前某领导下令写过一个 app,如果服务器不上报消息就判断宕机,然后 app 会响,尼玛各种折腾误报,不堪回首。。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1799 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 16:43 · PVG 00:43 · LAX 08:43 · JFK 11:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.