爬虫判重

2017-03-09 00:22:22 +08:00
 1a1a11a

一般大家用什么办法判断 url 已经被爬过了? 用 hashmap 感觉内存消耗无上限啊,几十 G 内存唰唰唰就满了,用 sqlite 感觉 HDD 会成瓶颈?

4452 次点击
所在节点    编程
28 条回复
allgy
2017-03-09 10:59:39 +08:00
#1 楼正解
1a1a11a
2017-03-09 10:59:47 +08:00
@bjlbeyond 好像不太对题?还是我没理解到点?
1a1a11a
2017-03-09 11:00:24 +08:00
@Lax HLL 是什么,三个字母不太好搜,能不能给个名字?谢谢啦!
1a1a11a
2017-03-09 11:03:37 +08:00
@v2pro 好东西,学习了
jiangzhuo
2017-03-09 11:58:42 +08:00
@1a1a11a 果然大半夜事多了就是精力不集中, 1#说的对 bloomfilter+个 bigtable 什么的足够了
1a1a11a
2017-03-09 13:02:10 +08:00
@jiangzhuo 谢谢
Lax
2017-03-11 17:22:51 +08:00
@1a1a11a HyperLogLog , redis 内置支持 https://redis.io/commands/pfadd
1a1a11a
2017-03-12 03:37:30 +08:00
@Lax 谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/346011

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX