运维孙子被要求来定义如何收集错误码：这个工作内容算是运维的工作内容吗？当然也希望爷爷们给点方案

背景：

某黄牛性质的网站。最近开始倒腾自己的错误码了。  
错误码如何定义，开发爷爷们已经商定了？接下来就是该怎么收集统计问题。

之前他们的日志会向日志文件和 graylog 两个地方输出。

现在我手里有两种方案：

	1，利用现成的 graylog，就是他们的错误码直接和日志文件一起向 graylog 输出，我再通过 api 查询一段时间内（比如说一个月）错误码出现的次数和时间，错误码出现次数增加则报警。然后统计给开发爷爷们看（做个图形化界面什么的），或着利用 graylog 的图形来做。  
    2，redis。这个是我自己想的。我的设想是：利用 redis 的列表（集合）。用错误码来做 key，然后把错误码发生的时间戳做为 value，push （ add ）到列表（集合）中去，还要写怎么删除超过一个月的 value。 这样也可以做到监控错误码的出现次数和时间。
    
其他的技术我就不太了解了，还希望爷爷们不吝赐教。

305835227fadf

2018-11-29 17:21:07 +08:00

开发者在代码里嵌入 Prometheus SDK 暴露监控端点，然后服务端 Prometheus 来采集，集合 Grafana 来展示图表；另外看你提到 Graylog，推测你线上环境基于 Docker 部署？如果是那更好办了，Docker 原生就支持 Prometheus 来监控，很便利。

hotsymbol

2018-11-30 00:43:07 +08:00

Prometheus 当然是最好的方案。但是自定义程度不高。PromQL 限制还是很多。不能像 Pyhon 或者 Golang 那样想怎么弄就怎么弄。
自建日志监控。从捞错误信息开始。一般情况下使用 Push 的方法。只有 prometheus 使用捞数据的方法。Docker 和 Kubernets 原声支持 Prom。但是 Kubernest 内建的 dashboard 也可以完美支持系统负载运维。并且捞出日志。
如果业务的实时性不是很高。用 Go 或者。Net core 足以。如果需要实时性特别特别强。建议还是用 C。毕竟 F22 的系统都有 C 的代码（据说）

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/512663

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

运维孙子被要求来定义如何收集错误码： 这个工作内容算是运维的工作内容吗？ 当然也希望爷爷们给点方案

运维孙子被要求来定义如何收集错误码：这个工作内容算是运维的工作内容吗？当然也希望爷爷们给点方案