爬虫每天传一次到 hdfs 能用 flume 吗?

2021-04-05 11:33:22 +08:00
 txc106

爬虫每天传一次到 hdfs 能用 flume 吗?已经配好了 flume 为了论文多点内容也想尽量用上 但发现 flume 好像设滚动的话会一直产生新文件 设滚动时间长在时间到之前好像又是一直是 tmp 状态 有办法可以使 csv 文件每天通过 flume 传一次到 hdfs 吗?还是只能设置定时任务到时间 put 一次呢?感谢解答

2169 次点击
所在节点    Hadoop
3 条回复
xcc880
2021-04-05 13:57:13 +08:00
尝试下 HDFS Sink 参数 hdfs.idleTimeout, 即文件多少时间内没更新就会 close.
chennuo
2021-04-06 01:26:27 +08:00
面向 JY coding 么
wpf375516041
2021-04-06 10:35:29 +08:00
所以你论文里面怎么写,跟 flume 能不能有什么关系,你说改了源码不是更好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/768067

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX