PySpider 如何去重?

2019-04-23 09:43:42 +08:00
 leewlab

pyspider 如何对某一个抓取值去重,不是 url 去重

比如我抓了很多文章,同样文章标题的不去抓取,过滤掉

请问怎么怎么设置,谢谢

3487 次点击
所在节点    Python
7 条回复
est
2019-04-23 09:54:27 +08:00
pyspider 都会了还不会去重?最笨的办法就是用 == 逐个比
seaguest
2019-04-23 09:59:24 +08:00
数据量大的时候可以考虑 bloom filter,cuckoo filter。
ztcaoll222
2019-04-23 10:00:40 +08:00
不就是和 url 去重一样吗
url 你怎么去重标题就怎么去重
Northxw
2019-04-23 10:05:32 +08:00
如果你存数据库,可以尝试 md5 一个唯一值,然后检查(或者布隆过滤器?不清楚)
binux
2019-04-23 10:06:37 +08:00
lanpong
2019-04-23 10:19:28 +08:00
楼上作者出没
KyonLi
2019-04-23 11:59:17 +08:00
自定义 taskid 吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/557768

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX