使用 kafka streams 疑惑

2018-04-27 17:03:30 +08:00

funky

在使用 kafka stream 聚合时候如何指定间隔 1s 去聚合数据结果发送到数据库
e.g:
在一个时间段内
key1:{a:1,b:1:c:1}
key1:{a:11,b:1:c:5}
那改时间端聚合之后的结果就是
key1:{a:12,b:2:c:6}
翻看 kafka streams 的文档貌似没有找到解决办法
请问各位遇到过类似的问题么，在实时数据分析上，

4903 次点击

所在节点

Kafka

5 条回复

3a3Mp112

2018-04-27 17:06:10 +08:00

logstash 采集 kafka 的数据到 spark 里，scala 清洗一下然后再 jdbc 写到数据啊。
https://aiyanbo.gitbooks.io/spark-programming-guide-zh-cn/content/spark-streaming/index.html

funky

2018-04-27 17:18:04 +08:00

不借助 spark
借助 spark 的方案我之前实现了但是觉得只是为了数据分析而搞一大推东西

timonwong

2018-04-27 17:36:34 +08:00

kafka streams 没有 windowed aggregation?

funky

2018-04-27 17:42:15 +08:00

有的但是效果不是我想要的它内部是个 changelog，每次窗口之后内部的 key 不会清除

timonwong

2018-04-27 18:09:37 +08:00

如果 tumbling window 不行的话，就有点反自觉了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/450447

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.