Ping.gg

2014-12-20 20:27:20 +08:00
 Livid
一个界面很简单的服务器监控工具。

https://ping.gg/
5457 次点击
所在节点    DevOps
10 条回复
ytf4425
2014-12-20 20:29:09 +08:00
有API么可以考虑给我的网站加个
Livid
2014-12-20 20:32:51 +08:00
我觉得看这类服务最有趣的方面就是他们如何判定一台机器 down 和 up 的逻辑。

想清楚这背后的逻辑的话,自己实现一个也是很简单的,难的是在运维上保证这样的东西不会挂。
spance
2014-12-20 20:52:17 +08:00
这是基于icmp回应的,只能检测网络是否在线是否死机之类。
对于一个app server需要做应用层检测,往往app daemon进程挂掉是高于服务器挂掉的。
hjc4869
2014-12-20 21:03:31 +08:00
@spance 如果是Azure这种不能用ICMP的,那就没办法了。。
spance
2014-12-20 21:11:43 +08:00
@hjc4869 是的,azure的网关禁止了icmp,而且还是nat,基于简单的icmp是不可行的。
阿里监控其实还不错,有不少的应用层监控,还有直接tcp/udp方法,还是不错的。
9hills
2014-12-20 22:43:32 +08:00
基于ICMP的判断是不准确的,实际使用的时候,一般会加上22端口的检查来综合判断机器存活。

应用层另谈。

P.S. 说句题外话,厂内的监控是这么分的:

采集项:
——机器(不可定制):
————机器存活、22端口、CPU/MEM/DISK/RAID/NET/..... 各种参数
——服务(可定制):
————进程信息,日志信息提取(正则),端口监控信息等等

监控策略:
——对各种采集项,设定策略,可以对各种采集项之间进行逻辑运算,达到条件则触发报警。同时也可以设定一些比如N次中有M次达到条件,才触发报警;报警之间优先关系,比如死机报警会覆盖掉其他报警,避免死机时出现大量报警 等等高级规则

报警策略:
——定制各种报警策略(FATAL/ERROR/INFO等),包含电话/短信/邮件的通知人设定,报警升级设定(超过X时间后报警持续则升级到下一批报警接收人),最大报警次数,报警静默时间等等

不知道商业报警服务有没有类似的。。
yanqian
2014-12-20 22:54:08 +08:00
@9hills 请问你们的监控报警是基于Nagios或者Zabbix么?
9hills
2014-12-20 22:57:48 +08:00
@yanqian 自己做的,开源的都用过,实话说还是厂里做的好。现在开源的监控感觉大多很原始
typcn
2014-12-21 03:03:37 +08:00
我用的 uptimerobot

有 api 免费

效果 http://status.eqoe.cn
yanqian
2014-12-26 22:02:04 +08:00
@9hills 很有兴趣多了解些你们监控系统的特点,能简单介绍下么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/155382

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX