prometheus、alertmanager 告警误报问题

规则是这样配置的

  - alert: 服务器宕机
    expr: up == 0
    for: 1m
    labels:
      severity: emergency
    annotations:
      summary: "{{$labels.instance}}:服务器宕机"
      description: "{{$labels.instance}}:服务器延时超过 5 分钟"
      
    - alert: MySQL 宕机 
    expr: up == 0
    for: 5s 
    labels:
      severity: emergency
    annotations:
      summary: "{{$labels.instance}}: MySQL 宕机!!!"
      description: "请检测 MySQL 数据库运行状态"

遇到一个误报，服务器和 MySQL 都正常的情况却触发了上面两个告警规则

请问大家有没有遇到过误报的情况呢？是配置没有对还是什么原因呢？另外有没有办法去查询告警的历史记录呢？目前是通过邮件接收的

killva4624

2021-10-12 10:11:58 +08:00

先查查误报的原因是什么？在 prometheus 的 db 里，相关 instance 在该时段的 up == 0 是怎么导致的？ node-exporter 和 mysql 的 exporter 同时 up == 0 的情况，看起来网络不可达或者拉取 metrics 超时的可能性更大一些。
似乎现在还没有告警历史记录的官方支持，如果有的话请哪位老哥点醒我看文档。我能想到的是：1 、持久化记录和解析 alertmanager 日志（可能需要调整日志级别，不太记得了） 2 、告警时除了发邮件，也调一个 webhook，作为持久记录。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/807081

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.