[交流] Linux 服务器,大家使用什么方案监控性能和资源?

2022-09-22 09:37:35 +08:00
 fox0001

公司生产机,购买阿里云 ECS ,系统 Debian 。由于阿里云的云监控要付费,计划自己搞个监控性能和资源的情况。

目前先使用 dstat 收集一下数据。后面可能考虑 njmon 。

找到的相关方案如下:

1. dstat

占用资源小,监控数据可配置,监控数据可保存 CSV 。但是数据需要自己生成图表(目前使用 Excel ),就是查看不方便。

2. nmon / njmon

占用资源小,监控数据基本无配置,nmon 可保存 CSV ,njmon 可保存 json 。官方提供工具生成图表。njmon 更高级,可搭配 InfluxDB 和 Grafana ,实现更好的数据展示。

3. glances

占用资源较大,可持久化监控数据,界面漂亮,部署方式多样(单机版、C/S 、Web )。未深入研究。

4. netdata

占用资源较大,可持久化监控数据,界面漂亮。比较奇怪的是,界面有比较多的地方提示登录 netdata cloud 。未深入研究。

大家有无其它方案或建议?

7842 次点击
所在节点    Linux
44 条回复
zoharSoul
2022-09-22 17:40:47 +08:00
ecs 监控免费的啊
cnoder
2022-09-22 18:30:26 +08:00
node_exporter + prometheus + grafana
你的 prometheus + grafana 再展示別的数据还能复用
clickhouse
2022-09-22 18:54:40 +08:00
prometheus +10086
ZE3kr
2022-09-22 19:22:55 +08:00
snmp
yghack
2022-09-22 19:43:02 +08:00
机器数量低于 10 台建议,zabbix
高于 10 台,prometheus+ grafana 吧
wwhc
2022-09-22 21:12:55 +08:00
Munin 很省资源
Songxwn
2022-09-22 22:32:14 +08:00
Zabbix 吧
Jirajine
2022-09-22 22:57:41 +08:00
node_exporter + prometheus + grafana
部署完了以后可以逐步在业务代码里添加 tracing ,收集聚合展示其他业务相关的 metric 。
fox0001
2022-09-22 23:54:40 +08:00
@yghack #25 看过有文章说,prometheus 更适合于容器的监控。所以想请教一下你的结论是怎样总结得出?有没有相关的经验、数据或者文章可以参考一下?

该文章:
https://blog.51cto.com/lovebetterworld/2864084
fox0001
2022-09-23 00:02:19 +08:00
@Jirajine #28 不好意思,涉及收集业务数据的方案,不是很明白。你意思是,在业务代码添加发送相关数据到 prometheus 的功能,然后就能分析和统计业务相关的指标吗?
Alliot
2022-09-23 00:37:14 +08:00
说到监控,如果你对硬件 网络设备不关心,那么不要想,直接 prometheus 全家桶。
如果是硬件监控,zabbix PRTG 都是你的选择。
如果是云资源,数量 10 以下,没太多定制需求,直接用云厂商的监控。
所以答案很明显了。
akira
2022-09-23 00:57:10 +08:00
自己部署的时候 投入的人力资源,新增的服务器资源, 比 云监控 便宜么。。
Jirajine
2022-09-23 01:26:40 +08:00
@fox0001 没错,node_exporter 只是输出 CPU/内存这些通用的硬件监测指标,还可以自行添加业务相关的数据源,在线用户数、订单量等,以及代码中结构化日志,有多少 warning 、error ,包括 payload ,都可以在 grafana 里可视化展示。
一般框架和库和 log infra 集成,代码里直接 tracing ,就可以自动收集、汇总、展示了。
fox0001
2022-09-23 06:17:45 +08:00
@Jirajine #33 感谢!这个好玩~
yghack
2022-09-23 06:53:30 +08:00
@fox0001 没有相关文章,经验之谈,zabbix 易用性更强,prometheus 性能更好,相同的配置下,prometheus 的承载量大不少
fox0001
2022-09-23 07:57:00 +08:00
@yghack #35 谢谢
fox0001
2022-09-23 08:14:30 +08:00
@yghack #35 对了,我记得 Zabbix 是使用 MySQL 之类的关系数据库存储数据,所以相对于 Prometheus 的时序数据库,确实逊色
liaohongxing
2022-09-23 08:33:38 +08:00
现代方案肯定是选 node_exporter + prometheus + grafana ,prometheus 还能接入众多第三方的 metrics ,代码的自定义 metrics ,显示自定义图表
zent00
2022-09-23 08:40:56 +08:00
如果有大量硬件需要监控,建议 Zabbix 。

其它场景我一般选择 Node Exporter + Prometheus + Grafana 。

备选方案 Telegraf + InfluxDB + Grafana 。
hoopan
2022-09-23 08:57:47 +08:00
Nightingale 夜莺监控 All-In-One 方案,我们公司运维在用。https://n9e.github.io/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/882037

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX