爬虫判重

2017-03-09 00:22:22 +08:00

1a1a11a

一般大家用什么办法判断 url 已经被爬过了？用 hashmap 感觉内存消耗无上限啊，几十 G 内存唰唰唰就满了，用 sqlite 感觉 HDD 会成瓶颈？

4605 次点击

所在节点

28 条回复

allgy

2017-03-09 10:59:39 +08:00

#1 楼正解

1a1a11a

2017-03-09 10:59:47 +08:00

@bjlbeyond 好像不太对题？还是我没理解到点？

1a1a11a

2017-03-09 11:00:24 +08:00

@Lax HLL 是什么，三个字母不太好搜，能不能给个名字？谢谢啦！

1a1a11a

2017-03-09 11:03:37 +08:00

@v2pro 好东西，学习了

jiangzhuo

2017-03-09 11:58:42 +08:00

@1a1a11a 果然大半夜事多了就是精力不集中， 1#说的对 bloomfilter+个 bigtable 什么的足够了

1a1a11a

2017-03-09 13:02:10 +08:00

Lax

2017-03-11 17:22:51 +08:00

1a1a11a

2017-03-12 03:37:30 +08:00

@Lax 谢谢

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.