如何高效存储和管理爬虫抓取的数据,以便后续清洗和转换?

114 天前
 qsnow6

在进行数据采集、清洗和转换的过程中,经常会出现重复处理同一批数据的情况。例如,在需求初期不需要年份信息,但后续又需要添加年份信息。如果每次都重新采集数据,会非常麻烦且低效。

为了解决这个问题,我设想应该将爬虫抓取的原始数据保存或缓存到某个地方,每次需要清洗和转换时,直接从该存储位置提取数据进行处理。

我在网上查阅了一些关于数据仓库和数据湖的资料,但不太理解这些概念。请问在这个场景下,应该如何高效地存储和管理这些数据?

901 次点击
所在节点    程序员
2 条回复
Iakihsoug
113 天前
把功能分开,把原始数据 地址 状态 版本号入库,方便重采
处理服务直接读原始数据处理,数据有问题标记重采
qsnow6
108 天前
@Iakihsoug 有没什么工具可以方便处理这些工作

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1062854

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX