有 bigdata 运维的老哥吗? 来交流下经验

2018-12-22 20:23:27 +08:00
 scalaer

先列举几个日常遇到最多的问题:

  1. java.lang.OutOfMemoryError: GC overhead limit exceeded
  2. 数据量增大, 导致任务消耗内存变大, 某个 container 卡死.


只想少加班, 求老哥指导指导.

934 次点击
所在节点    问与答
5 条回复
Lax
2018-12-22 20:53:21 +08:00
一般是基础的资源指标,以及跟业务健康状态直接相关的运行指标。按数据来源又区分机器 /网络方面数据,java 虚拟机层次数据,业务应用层次数据。
关于监控,看一下 braden gregg 的 USE 方法: http://www.brendangregg.com/usemethod.html
基本能回答怎么监控,监控什么的问题,应该能顺带解决要不要去 auto scaling。
594duck
2018-12-23 07:59:58 +08:00
jmxtrans+influxdb+grafana

主要收集两个 gc,cou 使用和总内存消耗。其他自己挑。
scalaer
2018-12-23 10:01:13 +08:00
@Lax 多谢老哥,正愁没有相关资料做一个全局的规划.
scalaer
2018-12-23 10:04:01 +08:00
@594duck 如果一个 spark 任务会在 3 个节点上运行. jmxtrans 能够收集 3 个节点上的内存使用情况吗, 还是一个总内存?
Lax
2018-12-23 12:35:30 +08:00
@mggis0or1 这种都是采集单节点数据,靠监控系统去聚合数据

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/520069

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX