请教一下关于 elk 日志报警,服务重启不断推送报警问题

44 天前
Curiosity777  Curiosity777

做了一个 elk 日志监控系统,通过 elastalert2 推送到钉钉上,遇到的问题是微服务某一个服务发版重启了,(目前都是单机部署)会导致不断的发送 timeout 这类的报警,期望是,重启服务阶段不进行报警,大佬们有好的思路吗

1531 次点击
所在节点   Java  Java
11 条回复
2Nfree
2Nfree
44 天前
elastalert2 的日志告警原理上就是查询 ES ,直接设置规则 query must_not 对应 timeout 的日志类别,如果要是要求更高级的日志告警还是推荐用 flink cep 去做
Curiosity777
Curiosity777
44 天前
@2Nfree 好的,只是想控制重启期间的 timeout ,正常的还是要的,cep 我去了解下,感谢您的宝贵回答
2Nfree
2Nfree
44 天前
@Curiosity777 #2 如果重启期间的 timeout 报错和正常的 timeout 的报错是一致的,那你这种需要监听日志上下文,如应用程序获取了 SIGNTEM 的信号,就发出一个应用被关闭的信号日志,然后通过窗口监听上文中有被关闭的信号再去屏蔽发版的 timeout 报错,但是我感觉这个需求有点伪需求的意思了,你知道他在发版了实际上就人工忽略就好了
Curiosity777
Curiosity777
44 天前
@2Nfree #3 好的,明白了,谢谢大佬
NoKey
NoKey
44 天前
咋区分到底是人工停机发版、重启,还是系统自动给 kill 了呢?直接认为忽略啊,x 点到 x 点发版,此时间范围内有运维组跟踪,收到消息请忽略,巴拉巴拉的
FarmerChillax
FarmerChillax
44 天前
是不是应该考虑解决方向「为什么重启期间有告警?」
- 是不是没有最好流量无损?
FarmerChillax
FarmerChillax
44 天前
@FarmerChillax 最好 -> 做好
codepark
codepark
44 天前
2Nfree
2Nfree
44 天前
@NoKey #5 确实没有考虑到这个,所以感觉这个有点伪需求的意思
brianinzz
brianinzz
44 天前
最近在做日志收集的选型所以 ELK 还是最优解吗? 还是现在有更好的方案
yhl601125163
yhl601125163
44 天前
@brianinzz doris

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1106391

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX