9hills
2014-12-20 22:43:32 +08:00
基于ICMP的判断是不准确的,实际使用的时候,一般会加上22端口的检查来综合判断机器存活。
应用层另谈。
P.S. 说句题外话,厂内的监控是这么分的:
采集项:
——机器(不可定制):
————机器存活、22端口、CPU/MEM/DISK/RAID/NET/..... 各种参数
——服务(可定制):
————进程信息,日志信息提取(正则),端口监控信息等等
监控策略:
——对各种采集项,设定策略,可以对各种采集项之间进行逻辑运算,达到条件则触发报警。同时也可以设定一些比如N次中有M次达到条件,才触发报警;报警之间优先关系,比如死机报警会覆盖掉其他报警,避免死机时出现大量报警 等等高级规则
报警策略:
——定制各种报警策略(FATAL/ERROR/INFO等),包含电话/短信/邮件的通知人设定,报警升级设定(超过X时间后报警持续则升级到下一批报警接收人),最大报警次数,报警静默时间等等
不知道商业报警服务有没有类似的。。