使用夜莺监控替换 Prometheus + AlertManager + Grafana

2022-06-21 18:35:47 +08:00
 laiwei

夜莺监控是一款开源云原生监控分析系统,采用 All-In-One 的设计,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力,已有众多企业选择将 Prometheus + AlertManager + Grafana 的组合方案升级为使用夜莺监控。夜莺监控,由滴滴开发和开源,并于 2022 年 5 月 11 日,捐赠予中国计算机学会开源发展委员会( CCF ODC ),为 CCF ODC 成立后接受捐赠的第一个开源项目。

夜莺监控的几个经典案例分析,希望对于构建云原生监控体系的朋友,有帮助:

3946 次点击
所在节点    推广
4 条回复
opsonly
2022-06-21 23:31:04 +08:00
像 cpu/mem 这种资源指标,有内置函数支持 P99,P75 这种百分位的维度吗
laiwei
2022-06-22 13:54:27 +08:00
@opsonly ,p99/p95 这类统计一般是针对 latency 这类指标有意义的。

对于 cpu/mem ,在采集的时候,一般都是直接设置为 counter 类型,然后在监控服务端求 rate ,或者求 sum 等到相应的组合值。

p99,p75 这类分位值的计算,有两种做法,分别是 client 端计算和 server 端计算。

1 、在你的 app 代码中,埋点相关的 SDK (推荐 opentelemetry sdk ),选择 Summary 类型的数据结构,这样在 client 侧就可以直接生成你想要的分位值。

2 、在你的 app 代码中,同样埋点相关的 SDK (推荐 opentelemetry sdk ),选择 Histogram 类型的数据结构,这样在监控系统的 server 端,就可以使用 histogram_quantile()函数来计算任意你想要的分位值。
opsonly
2022-06-22 21:00:49 +08:00
#1 #2 都是针对 latency 这类指标的吗?
laiwei
2022-06-26 15:00:01 +08:00
@opsonly
Histograms and summaries both sample observations, typically request durations or response sizes. They track the number of observations and the sum of the observed values, allowing you to calculate the average of the observed values.
----------
Histograms 数据结构,在监控的场景下,典型的就是度量 latency ( request durations ) 或者 请求的某种特征分布(比如 response size )

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/861180

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX