服务端一般是怎么处理一些埋点数据的入库呢？

用户的数据一个先入到队列里面，一种数据对应一个队列，一张表。然后由脚本 pop 出来，写入数据库。现在是要收集的数据种类比较多，一个数据添加一个脚本有点不好管理了。有没有什么开源项目是处理这样的情况的。

目前想到的是 python celery，但是好像新增 task 的时候需要重启整个 celery 。会影响别的队列处理。

Alexf4

2021-06-08 18:07:51 +08:00

kafka 做消息队列呗。
前面生产数据到队列，后面起消费进程，格式化，入库等等，解耦还是挺容易的。

levelworm

2021-06-09 07:48:42 +08:00

我司的思路：

Kafka 进来，按照配置文件进不同的 topic，然后不同的 topic 可能单独进表或者几个 topic 进同一个表，也可能一个 topic 通过变换进不同的表。中间用 Spark 写变换工具，所有的变换用配置文件表示。大致上算是 ELT 的思路？但是这仅仅是 raw data，等进了数据库之后，可以根据分析需求，进一步做变换和聚合，生成有一定延时的数据仓库，供 Power BI/Tableau 等 BI 工具使用。

建议根据业务和分析的需求，好好设计一下数据、topic 和初始的生肉数据库以及后面的数据仓库。

levelworm

2021-06-09 07:51:36 +08:00

刚才忘说了，数据仓库上可能还有一层聚合表或者 View，但是看情况而定，总之就是确保分析的查询越简单越快捷越好。

经常遇到的数据和表的设计问题：

之一：分析需要对两个不同 topic 出来的数据进行 join，但是又没有共同的 field，怎么办？

之二：分析需要实时的聚合数据，但是聚合通常有时间差，怎么办？

之三：分析有时候需要对某一类数据进行分析，但是这一类数据可能散落在很多个 topic 中，怎么办？

levelworm

2021-06-09 07:53:47 +08:00

好吧激动的说了一会，发现好像侧重于数据工程这头，但是题主似乎问的是数据源头的问题。。。不管了。

aladdindingding

2021-06-09 21:01:07 +08:00

@levelworm 多谢老哥会参考的

levelworm

2021-06-09 23:57:38 +08:00

@aladdindingding 不客气，不知道有没有用

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/782206

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.