运维孙子被要求来定义如何收集错误码: 这个工作内容算是运维的工作内容吗? 当然也希望爷爷们给点方案

2018-11-29 11:18:12 +08:00
 wangking

背景:

某黄牛性质的网站。最近开始倒腾自己的错误码了。  
错误码如何定义,开发爷爷们已经商定了?接下来就是该怎么收集统计问题。

之前他们的日志会向日志文件和 graylog 两个地方输出。

现在我手里有两种方案:

	1,利用现成的 graylog,就是他们的错误码直接和日志文件一起向 graylog 输出,我再通过 api 查询一段时间内(比如说一个月)错误码出现的次数和时间,错误码出现次数增加则报警。然后统计给开发爷爷们看(做个图形化界面什么的),或着利用 graylog 的图形来做。  
    2,redis。这个是我自己想的。我的设想是:利用 redis 的列表(集合)。用错误码来做 key,然后把错误码发生的时间戳做为 value,push ( add )到列表(集合)中去,还要写怎么删除超过一个月的 value。 这样也可以做到监控错误码的出现次数和时间。
    
其他的技术我就不太了解了,还希望爷爷们不吝赐教。
4415 次点击
所在节点    程序员
30 条回复
0ZXYDDu796nVCFxq
2018-11-29 13:01:13 +08:00
这样说话,在办公室不会被打吗?
lfzyx
2018-11-29 14:19:05 +08:00
这个工作内容当然算是运维的工作内容,不然运维是修电脑搞网络扛服务器的?
tourist2018
2018-11-29 14:27:30 +08:00
啥意思 统计错误出现的次数么 ? 最简单的 shell 就可以
liwl
2018-11-29 16:54:20 +08:00
@wangking 你觉得自己是孙子,我不觉得自己是....这字眼,很难受。
qilishasha
2018-11-29 17:01:49 +08:00
所以……团队一定要培训好中文环节
LeungV2
2018-11-29 17:15:07 +08:00
让 V 站里的运维小改改看到了 肯定挨打
305835227fadf
2018-11-29 17:21:07 +08:00
开发者在代码里嵌入 Prometheus SDK 暴露监控端点,然后服务端 Prometheus 来采集,集合 Grafana 来展示图表;另外看你提到 Graylog,推测你线上环境基于 Docker 部署?如果是那更好办了,Docker 原生就支持 Prometheus 来监控,很便利。
8355
2018-11-29 17:31:42 +08:00
戾气太重了小兄弟
Raymon111111
2018-11-29 17:33:06 +08:00
这么好提升自己的机会

怎么抱怨?
hotsymbol
2018-11-30 00:43:07 +08:00
Prometheus 当然是最好的方案。但是自定义程度不高。PromQL 限制还是很多。不能像 Pyhon 或者 Golang 那样想怎么弄就怎么弄。
自建日志监控。从捞错误信息开始。一般情况下使用 Push 的方法。只有 prometheus 使用捞数据的方法。Docker 和 Kubernets 原声支持 Prom。但是 Kubernest 内建的 dashboard 也可以完美支持系统负载运维。并且捞出日志。
如果业务的实时性不是很高。用 Go 或者。Net core 足以。如果需要实时性特别特别强。建议还是用 C。毕竟 F22 的系统都有 C 的代码(据说)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/512663

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX