服务器挂了如何自动提醒运维或则对应的后端人员?

2019-06-17 11:21:57 +08:00
 Eugene1024
背景: 因为某种原因服务器挂掉了或则程序挂掉了,经常在休息的时候公司的人或则用户就打电话来,“小明,服务器又挂了,快起来看看是咋回事? ”
我:怎么又挂了,等下我起来看看

每次接到这种电话的时候都怀疑人生,而且在消息传递的期间有时间延迟,所以想到服务器挂了的时候能不能第一时间就提醒下运维或则后端人员,具体的提醒可能就有多种方式了,如短信,微信,邮件,电话等等,这里主要想了解下这种自动提醒的实现方式

自己想到了一种方法: 找一个服务器 B 部署一个测试程序,测试程序打开,定时(比如一分钟)访问 A 服务器,如果访问 A 访问不到了触发提醒

想知道还有其它哪些实用的实现方式
3637 次点击
所在节点    问与答
28 条回复
yinanc
2019-06-17 11:34:19 +08:00
Cooky
2019-06-17 11:35:35 +08:00
你们运维没有监控系统???
SakuraSa
2019-06-17 11:38:47 +08:00
感觉由服务器主动上传监控信息(调用量 /可用率 /延时)到监控服务器的方式比较普遍。
监控服务器发现监控值超出设定的阈值,或者一段时间没有上报后报警。
uqf0663
2019-06-17 11:40:30 +08:00
阿里云有个 “云监控”可以用,不是阿里云的机器也可以用
Eugene1024
2019-06-17 11:40:59 +08:00
@yinanc easy 老师写的工具,这个我知道,但这个只是消息提醒的方式,我实际上想知道如何检测到服务器或则程序蹦了
@Cooky 小公司专职运维都没有,当然也没有监控系统
rainfox
2019-06-17 11:47:09 +08:00
各种云监测服务……
liwl
2019-06-17 11:49:23 +08:00
@Eugene1024 找不找代维呀~
johnniang
2019-06-17 11:52:48 +08:00
aricxu
2019-06-17 12:00:17 +08:00
我就简单粗暴了点,直接服务器上跑 shell 定时监控进程,如果挂了就 钉钉机器人 /其他机器人 /短信 /电话 通知一下;其实还可以直接重启进程的。检测的话,ps 一下咯。
nanlou
2019-06-17 12:03:12 +08:00
如果生产环境在云上可以看看各家的云监控,如果是自有机房的话可以使用开源的 Zabbix、Nagios、Open-Falcon 之类的自建监控系统,话说这不是最基本的操作吗。。。。
botian
2019-06-17 12:23:20 +08:00
@yinanc 服务器都挂了,怎么发通知?
应该用外部的监测
shm7
2019-06-17 12:59:34 +08:00
直接定时访问,不就是最靠谱的手段么?你不管怎么检测,只要不访问,都无法确定服务是可访问的啊!
awhane
2019-06-17 13:05:23 +08:00
服务器 A 和服务器 B 都部署监控系统,最低保障监控系统的高可用。
然后看下 https://prometheus.io/就行了
internelp
2019-06-17 13:14:18 +08:00
运维不知道有监控系统吗,挂了自动发消息。
hand515
2019-06-17 13:25:50 +08:00
心跳包、定时 ping
37Y37
2019-06-17 13:41:10 +08:00
另外找个机器部署个监控系统,zabbix,nagios 啥的都行啊,有云服务最好了
hopingtop
2019-06-17 13:49:28 +08:00
prometheus 解君愁
vZexc0m
2019-06-17 13:56:01 +08:00
阿里云云监控。免费版也能满足要求。
hiplon
2019-06-17 13:59:14 +08:00
zabbix 就好了
huson
2019-06-17 15:46:00 +08:00
你们运维工程师是纸糊的吧 监控报警都不做的吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/574645

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX