VictoriaMetrics, Thanos, Cortex,或者其他的, Metrics 方案你们都用的是哪个?

122 天前
 annoygaga

续问https://www.v2ex.com/t/1066955?p=1#reply9

可能之前时间不讨喜

目前需要调研 Prometheus 的存储扩展,需求是降低数据量大了之后的运维压力

目前团队瓶颈主要在运维,prometheus 是给一群寻模型的同学使用,他们使用普遍乱来,而且组非常多(有对外的),所以可能会忽然来非常多数据(或者 label 非常多)

于是想要看看 prometheus 的扩展

目前服务部署在 k8s 上,目的是希望

想问问各位的意见

目前倾向于 VictoriaMetrics ,原因是看到用的公司日益增多

1034 次点击
所在节点    程序员
15 条回复
GopherDaily
122 天前
1. Prometheus 估计还是最成熟,最方便的方案
2. 优化&&限制下的话,支持个 3 千 c 的集群应该问题不大
3. 建议谁负责,谁觉得,特别是你们看山区都不了解的情况下
4. 云上存储扩容应该都支持吧
wandehul
122 天前
VictoriaMetrics thanos 纯粹是持久化数据。
helenfrank
122 天前
VictoriaMetrics, 我之前用来上位替换 prometheus 的, 可以看看小红书技术团队之类的设计方案, 他们也都用 VictoriaMetrics 了, 还可以保留部分集群的 prometheus, 平滑迁移.

目前看了 vmagent, vmalert 的代码, 确实在很多设计和细节上相较于 prometheus 在性能和高可用方面更好, 并且基本兼容原有的 prometheus 配置文件, 支持 prometheus 协议.

Prometheus 经常出现的问题就是一个集群节点数较多, 一个节点的 cpu 和内存都分配给它使用了, 还是不够, 经常 oomkill, 调存储时间之类的也不是个长久的办法, 并且费运维. 用 VictoriaMetrics 之后, 运维只需要关心全局集群的 VictoriaMetrics 了.

可能要关注的点是 vmstorage 的存储消耗(所有集群的数据都收集在一起了), 但不用在每个集群上都部署一个 prometheus 了, 总的消耗是更小了. vmagent 基本上给个 2 核 4G 就够了

一点经验, 仅供参考
helenfrank
122 天前
顺带一提, vm 已经上到生产环境了(集群 150 以内, node 3000 以内, pod 100000 以内), 给 vmstorage 目前分配的存储是 2T, 有个计算公式的, 你可以找找
annoygaga
122 天前
@GopherDaily
你指的是 promethues 单机(或者说 promethues operator ),撑 3k 的集群吗?
annoygaga
122 天前
@wandehul 其实最想要的就是数据的可扩展,查询速度慢一点倒是可以接受,而且最好有一些租户隔离,谁知道哪个同学会怎么瞎搞
annoygaga
122 天前
@helenfrank 是的,我也是看用的人多
计算公式有链接吗?我 google 貌似没找到
以及我这边用法有非常多异步 job (也就是 pushgateway 的用法,不知道会不会有什么影响不)
helenfrank
122 天前
annoygaga
122 天前
@helenfrank 感谢🙏
annoygaga
122 天前
想了解了解各个公司怎么做的
annoygaga
122 天前
别只收藏呀,有没有过来人给点建议
povsister
122 天前
annoygaga
122 天前
@povsister 感谢
RedisMasterNode
113 天前
cloudfly
67 天前
用 Victoria Metrics 搞了两年,正经不错,最近写了个手册 https://victoriametrics.com.cn/docs

希望有帮助

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1067240

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX