1
yinanc 2019-06-17 11:34:19 +08:00
server 酱
http://sc.ftqq.com/3.version |
2
Cooky 2019-06-17 11:35:35 +08:00 via Android
你们运维没有监控系统???
|
3
SakuraSa 2019-06-17 11:38:47 +08:00
感觉由服务器主动上传监控信息(调用量 /可用率 /延时)到监控服务器的方式比较普遍。
监控服务器发现监控值超出设定的阈值,或者一段时间没有上报后报警。 |
4
uqf0663 2019-06-17 11:40:30 +08:00 via Android
阿里云有个 “云监控”可以用,不是阿里云的机器也可以用
|
5
Eugene1024 OP |
6
rainfox 2019-06-17 11:47:09 +08:00
各种云监测服务……
|
7
liwl 2019-06-17 11:49:23 +08:00
@Eugene1024 找不找代维呀~
|
8
johnniang 2019-06-17 11:52:48 +08:00 via Android
|
9
aricxu 2019-06-17 12:00:17 +08:00 1
我就简单粗暴了点,直接服务器上跑 shell 定时监控进程,如果挂了就 钉钉机器人 /其他机器人 /短信 /电话 通知一下;其实还可以直接重启进程的。检测的话,ps 一下咯。
|
10
nanlou 2019-06-17 12:03:12 +08:00 1
如果生产环境在云上可以看看各家的云监控,如果是自有机房的话可以使用开源的 Zabbix、Nagios、Open-Falcon 之类的自建监控系统,话说这不是最基本的操作吗。。。。
|
12
shm7 2019-06-17 12:59:34 +08:00 via iPhone
直接定时访问,不就是最靠谱的手段么?你不管怎么检测,只要不访问,都无法确定服务是可访问的啊!
|
13
awhane 2019-06-17 13:05:23 +08:00
服务器 A 和服务器 B 都部署监控系统,最低保障监控系统的高可用。
然后看下 https://prometheus.io/就行了 |
14
internelp 2019-06-17 13:14:18 +08:00
运维不知道有监控系统吗,挂了自动发消息。
|
15
hand515 2019-06-17 13:25:50 +08:00 1
心跳包、定时 ping
|
16
37Y37 2019-06-17 13:41:10 +08:00 1
另外找个机器部署个监控系统,zabbix,nagios 啥的都行啊,有云服务最好了
|
17
hopingtop 2019-06-17 13:49:28 +08:00
prometheus 解君愁
|
18
vZexc0m 2019-06-17 13:56:01 +08:00 via Android 1
阿里云云监控。免费版也能满足要求。
|
19
hiplon 2019-06-17 13:59:14 +08:00 1
zabbix 就好了
|
20
huson 2019-06-17 15:46:00 +08:00
你们运维工程师是纸糊的吧 监控报警都不做的吗
|
21
turi 2019-06-17 15:51:21 +08:00 1
没脚本监控?
我们的运维直接撸脚本,挂了发一封邮件,然后重启服务器。 第二天我们来 gdb XXXXX 看原因。 |
22
okwork 2019-06-17 16:03:29 +08:00
首先要有异常提醒,其次要有宕机自动重启的机制,第三要用负载均衡的策略。这样基本就可以不用人肉等候了
|
23
PHPJit 2019-06-17 16:05:57 +08:00
zabbix +1
|
24
akira 2019-06-17 17:13:07 +08:00 1
@Eugene1024 云服务一般都会有提供监控 /告警服务的。
如果是托管主机,国内也有不少三方的云监控 /告警服务,直接用就是了. |
25
Shirakawa 2019-06-17 17:25:54 +08:00 1
python 写个脚本请求 http 状态码 然后联动钉钉机器人就好了
|
26
cominghome 2019-06-17 17:58:52 +08:00 1
最优解: 用云的话,大部分有自带的,理论上你只需要配置一个告警规则就行。
次解: 搭建一个 zabbix 把服务器监控上,应该花不了 1 天。 |
27
Mazexal 2019-06-17 18:03:34 +08:00 1
心跳包......不过必须要两台服务器以上才可以这么搞
|
28
zqx 2019-06-17 21:16:26 +08:00 via Android 1
一个服务,每隔半分钟就调目标机器的服务,超时就把机器信息回传给企业微信,企业微信推送到具体机器的应用的负责人
|