V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ArthurKing
V2EX  ›  问与答

Spark 中解析大量 200M 以下 csv 文件入库是否有优势?

  •  
  •   ArthurKing · 2017-05-26 15:23:43 +08:00 · 1927 次点击
    这是一个创建于 2744 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前没接触过 spark,这就要用 pyspark 处理几百个 G 的 csv 文件。有几点疑惑吧

    1. 处理这种数据是否有优势。文件大小 500k-180m 左右,总量有 400GB 左右。
    2. csv 文件格式不一(比如有的 20 列,有的 30 列),带标题行,且为中文,直接在 pyspark 中通过 sqlContext.read.option("header","true").csv("xx")读取标题乱码。这种情况是否要提前先将文件处理好?
    1 条回复    2017-05-26 16:03:06 +08:00
    liprais
        1
    liprais  
       2017-05-26 16:03:06 +08:00   ❤️ 1
    1.spark 会启动多个进程来并行的处理这些文件,资源够的话会比你用 python 单进程的处理快。
    2.编码问题需要用 encoding 这个参数来指定正确的编码。列不同的问题 spark 会自动合并,不存在的记录会被赋予 null,应该不会有问题。不过不同的列数一般代表是不同的数据,处理之后放到一起似乎不是好的实践。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2821 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:03 · PVG 15:03 · LAX 23:03 · JFK 02:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.