分布式压缩多个 hdfs 上的文件解决方案

2019-04-23 18:35:51 +08:00
 ysn2233

现在我在 hdfs 上有一千个文本文件,每个大概 200m-1g,想快速的压缩这些文件上传到 hdfs 上去。在单机用多进程跑了但速度还是没达到理想的要求,想问一下有没有分布式的方法执行这个问题。我们的机器之间 ssh 不通所以 gnu parallel 不行,想了解一下别的有什么解决方案,谢谢。

1730 次点击
所在节点   2019
2 条回复
ipwx
2019-04-23 18:46:31 +08:00
Spark. 用 sc.map
billlee
2019-04-23 22:12:21 +08:00
hadoop map reduce

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/558021

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX