V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
txc106
V2EX  ›  Hadoop

爬虫每天传一次到 hdfs 能用 flume 吗?

  •  
  •   txc106 · 2021-04-05 11:33:22 +08:00 · 2126 次点击
    这是一个创建于 1325 天前的主题,其中的信息可能已经有所发展或是发生改变。

    爬虫每天传一次到 hdfs 能用 flume 吗?已经配好了 flume 为了论文多点内容也想尽量用上 但发现 flume 好像设滚动的话会一直产生新文件 设滚动时间长在时间到之前好像又是一直是 tmp 状态 有办法可以使 csv 文件每天通过 flume 传一次到 hdfs 吗?还是只能设置定时任务到时间 put 一次呢?感谢解答

    3 条回复    2021-04-06 10:35:29 +08:00
    xcc880
        1
    xcc880  
       2021-04-05 13:57:13 +08:00   ❤️ 1
    尝试下 HDFS Sink 参数 hdfs.idleTimeout, 即文件多少时间内没更新就会 close.
    chennuo
        2
    chennuo  
       2021-04-06 01:26:27 +08:00
    面向 JY coding 么
    wpf375516041
        3
    wpf375516041  
       2021-04-06 10:35:29 +08:00
    所以你论文里面怎么写,跟 flume 能不能有什么关系,你说改了源码不是更好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3266 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:19 · PVG 20:19 · LAX 04:19 · JFK 07:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.