结构化日志中的指标，怎么输出给 prometheus？

程序主要是 go 写的。
程序中已经准备好结构化日志。绝大部分日志中有下面字段：traceid 、时间、耗时、查询入口、错误，等。
现在要收集这些数据，形成监控。

我猜大概两种方案：
一、每个节点部署某个专用服务收集日志，提取日志中的指标数据，输出给 prometheus 。
二、不增加服务，结构化日志后端 /输出端，通过某个开源库，处理后，直接通过网络输出给 prometheus

但具体自己没操作过，请教各位 v 友。还望指教。

日志系统暂定使用 LOKI 。

q1angch0u

2023-03-17 08:51:40 +08:00

前司是按一定格式输出到硬盘，之后由 sre 使用方案 1 汇报至时序数据库。原因我猜测是因为此方案对代码的侵入性相对较小，且不用限制项目实现语言。

JoDragon

2023-03-17 09:18:02 +08:00

pushgateway 满足你的需求

cxshun

2023-03-17 09:20:07 +08:00

可以考虑用 fluentd/logstash 直接处理日志数据后再通过 push gateway 给到 prometheus

seers

2023-03-17 09:24:58 +08:00

通过接口暴露，然后 Prometheus 抓取

saka0609

2023-03-17 09:35:32 +08:00

既然用了 Loki ，那就可以把你输出的日志给 Loki ，让 loki 帮你转成 metrics

saka0609

2023-03-17 09:37:47 +08:00

@saka0609 https://grafana.com/docs/loki/latest/clients/promtail/stages/metrics/

ql562482472

2023-03-17 09:44:43 +08:00

我觉得你遇到的问题有两个，一个是 log 怎么转化为 metric 。就是 logs 怎么转化为 Counter （计数器）、Gauge （仪表盘）、Histogram （直方图）、Summary （摘要）
另一个是如何进行 metric 的定义

pkoukk

2023-03-17 10:15:51 +08:00

第一点，确认需求，日志里的东西能满足现在以及后续的全部监控需求么？
一定有部分核心业务是单独需要监控指标的吧，所以还不如直接在 go 里接 prom ，让 prom 从 go 服务直接采集 metric

BQsummer

2023-03-17 11:33:51 +08:00

1. 日志转指标需求是合理的，是应用通用指标的一部分。
2. 我司是有专门的应用和 Flink 消费所有应用的日志，统一处理并产出指标，对于单体应用可能不合适。
3. 部分应用日志在 sls ，我们平台可以定时查询 sls 产出指标。

joesonw

2023-03-17 12:30:23 +08:00

你用的什么日志库，大部分日志库都可以自己实现 Collector ，记录相关 metrics ，prometheus.Register 一下，就一起采走了。

killva4624

2023-03-17 12:34:22 +08:00

把 log 转成 prometheus 的识别样式，生成和刷新文件到指定目录，然后 node-exporter 加上 --collector.textfile.directory 参数，再走常规的 prometheus 数据采集就可以。

lanjz

2023-03-17 15:49:25 +08:00

https://github.com/google/mtail
可以试试

1800x

2023-03-18 07:49:27 +08:00

@ql562482472 谢谢。查询了有关信息。
如果我要收集同一接口处理逻辑的处理量、耗时分布、错误率，好像还得定义不同的 Observer ？

winglight2016

2023-03-18 12:32:19 +08:00

1. 把日志写到 ES
2. 用 grafana 连接，然后自己定义 dashboard
我们就是这样处理 log 的，其他有 Prometheus 的服务，也可以接入 grafana

ql562482472

2023-03-18 14:40:15 +08:00

@1800x 我不太清楚其他回答者的身份，然后我个人也做过短暂的半年多 devops ，后来的感受就是，ops 角色其实并不关心业务，只有 dev 在关心业务。
我现在回来继续做 dev ，感觉很多指标光凭 ops 从业务无关的地方抽，抽死都抽不出有深度的信息。想要具有深度，还是得开发自行定义 metric ，比如你要的这个处理量，耗时分布，错误率，我感觉是需要有 metric 的埋点：

key = biz.usage 的累加器，tag 是 method-full-name
key = biz.cost.time 的直方图或者 Summary ，tag 也是 method-full-name
key = biz.success 的累加器
key = biz.fail 的累加器

我的认知也很浅，也没有大厂的实践参考，我觉得可能需要自行定义一些 metric ，也许专业的 ops 或者 Prometheus 开发者有其他的方案，仅供参考

1800x

2023-03-18 15:56:30 +08:00

@ql562482472
以前公司，搞了一套监控，有业务层的指标，也有运维层的指标。我们主要看的是业务层的指标。
想在目前公司重新搞一套，目前已经在业务层收集了有关指标，但接下来的处理细节，我并不清楚。

ql562482472

2023-03-18 15:58:55 +08:00

@1800x 如果指标已经有了那就是套到 metric 上去，然后用 http 之类的 /metrics 接口暴露出去，prometheus 去定时拉这一个接口，然后用 grafana 做 dashboard 了么

1800x

2023-03-19 07:05:28 +08:00

@ql562482472 还没到那步。
已经埋点，不需要再改业务代码。
现在需要在埋点代码里加 metric 输出

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/924710

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.