ysn2233
V2EX  ›  2019

分布式压缩多个 hdfs 上的文件解决方案

  •  
  •   ysn2233 · Apr 23, 2019 · 2262 views
    This topic created in 2581 days ago, the information mentioned may be changed or developed.

    现在我在 hdfs 上有一千个文本文件,每个大概 200m-1g,想快速的压缩这些文件上传到 hdfs 上去。在单机用多进程跑了但速度还是没达到理想的要求,想问一下有没有分布式的方法执行这个问题。我们的机器之间 ssh 不通所以 gnu parallel 不行,想了解一下别的有什么解决方案,谢谢。

    2 replies    2019-04-23 22:12:21 +08:00
    ipwx
        1
    ipwx  
       Apr 23, 2019
    Spark. 用 sc.map
    billlee
        2
    billlee  
       Apr 23, 2019
    hadoop map reduce
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3076 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 00:32 · PVG 08:32 · LAX 17:32 · JFK 20:32
    ♥ Do have faith in what you're doing.