V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
qsnow6
V2EX  ›  程序员

如何高效存储和管理爬虫抓取的数据,以便后续清洗和转换?

  •  
  •   qsnow6 · 44 天前 · 801 次点击
    这是一个创建于 44 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在进行数据采集、清洗和转换的过程中,经常会出现重复处理同一批数据的情况。例如,在需求初期不需要年份信息,但后续又需要添加年份信息。如果每次都重新采集数据,会非常麻烦且低效。

    为了解决这个问题,我设想应该将爬虫抓取的原始数据保存或缓存到某个地方,每次需要清洗和转换时,直接从该存储位置提取数据进行处理。

    我在网上查阅了一些关于数据仓库和数据湖的资料,但不太理解这些概念。请问在这个场景下,应该如何高效地存储和管理这些数据?

    2 条回复    2024-08-12 10:17:22 +08:00
    Iakihsoug
        1
    Iakihsoug  
       43 天前
    把功能分开,把原始数据 地址 状态 版本号入库,方便重采
    处理服务直接读原始数据处理,数据有问题标记重采
    qsnow6
        2
    qsnow6  
    OP
       38 天前
    @Iakihsoug 有没什么工具可以方便处理这些工作
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1577 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 16:53 · PVG 00:53 · LAX 09:53 · JFK 12:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.