各位大佬请教一下,关于爬虫的过滤问题

2018-12-19 18:05:41 +08:00
 cyy564
现有一个爬虫,现在爬下来需要手动过滤一遍( ps 这里吐槽一下人工都无法完美筛选,挺蛋疼的,更别提只用脚本清洗了

但接下来要定时抓取,每个月都要抓一遍,那么如何设定规则不让抓那些被筛除掉的数据,数据量会越来越大的感觉
1888 次点击
所在节点    Python
5 条回复
jatesun
2018-12-19 18:15:24 +08:00
题目没有描述清楚过滤规则,所以没法给出具体的建议。如果过滤规则可以代码话,那就通过过滤器校验就好了。
ClutchBear
2018-12-19 18:17:14 +08:00
url 个数量小,

url 用 redis 的 set 去重

url 数量多上百万
用 redis 的 bloomfilter 插件去重
cyy564
2018-12-19 18:22:14 +08:00
抱歉可能没描述清楚。

没有过滤规则,没有去重的问题,简单说就是爬虫第一次手动筛掉的数据,如何在第二次不去爬它
xpresslink
2018-12-19 18:55:26 +08:00
记录爬过的每个页面的根域名和 path URL,给标题做 MD5 存摘要,爬虫爬这个网站前把数据库里存的 URL 列表或标题摘要加载到 set 里面。再爬时候比对一下。
zarte
2018-12-19 18:58:07 +08:00
没描述清楚你的数据是什么,词还是文本还是网页。除了文本应该都可以先把去掉的数据存起来,爬虫爬下来要存的时候过滤下。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/519069

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX