爬虫每天传一次到 hdfs 能用 flume 吗?已经配好了 flume 为了论文多点内容也想尽量用上 但发现 flume 好像设滚动的话会一直产生新文件 设滚动时间长在时间到之前好像又是一直是 tmp 状态 有办法可以使 csv 文件每天通过 flume 传一次到 hdfs 吗?还是只能设置定时任务到时间 put 一次呢?感谢解答
1
xcc880 2021-04-05 13:57:13 +08:00 1
尝试下 HDFS Sink 参数 hdfs.idleTimeout, 即文件多少时间内没更新就会 close.
|
2
chennuo 2021-04-06 01:26:27 +08:00
面向 JY coding 么
|
3
wpf375516041 2021-04-06 10:35:29 +08:00
所以你论文里面怎么写,跟 flume 能不能有什么关系,你说改了源码不是更好
|