ls2995 最近的时间轴更新
需要写 MapReduce 或者 spark 解压集群上的 zip 文件并将里面 xml 解析出存储到 hbase 中
2018-11-27 17:18:36 +08:00
ls2995

ls2995

V2EX 第 366099 号会员,加入于 2018-11-27 14:10:09 +08:00
ls2995 最近回复了
@dhairoot 你是什么项目啊? spark 解析写咋样了
@dhairoot 我用 spark 实现了,但是性能不是很好,我们公司要求有点高,集群性能不太好吧还要求速度,所以分别跑不太现实,而且每周还会来 3T 左右的 zip 文件,必须要尽快解压分析入库,现在正写 spark 解析 xml 呢,有点烦躁
@dhairoot 证券数据,解析入库后分析
我跟你的任务咋这么一致呢,我是大概 8T 的 zip 文件在 hdfs 上,里面也都是 xml,我需要解压后再在集群上做解析存到 hbase,我解压就是看你发的那个链接写出来的,但是性能确实不太好,你最后是怎么解决的?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2864 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 14:10 · PVG 22:10 · LAX 06:10 · JFK 09:10
Developed with CodeLauncher
♥ Do have faith in what you're doing.