这种专门索引百度网盘的搜索,它的爬虫不会被 ban 掉么?

2015-10-11 11:49:38 +08:00
 easychen

最近一直在用 http://kaopu.so/ 看样子索引了很大量的内容,话说百度本身不对访问 IP 做频次控制么?

11277 次点击
所在节点    程序员
30 条回复
lizheming
2015-10-11 11:53:37 +08:00
看过之前一个爬虫的帖子,说是 5 分钟一次,做好频率控制多 IP 轮流就好了吧…
d7101120120
2015-10-11 11:54:00 +08:00
嘘小声点~~~~
pathletboy
2015-10-11 11:54:16 +08:00
频次控制不大好做的,现在网络很多都内网了,出口都是一个 IP 。
gzlock
2015-10-11 11:54:51 +08:00
也没法证明是用同一 IP 爬的啊
easychen
2015-10-11 11:58:19 +08:00
@lizheming 最近看这类网盘的索引量都到千万级了。感觉计算轮着来,也要抓好久来着……
easychen
2015-10-11 11:59:06 +08:00
@gzlock 除非用客户端爬,否则都会有 IP 的问题吧。( 就算是多个 IP ,也是蛮有限的。
kslr
2015-10-11 12:02:04 +08:00
比如 Coding 支持运行程序的,可以做个 Proxy ,类似的还很多,也很稳定。
lizheming
2015-10-11 12:08:43 +08:00
@easychen https://www.v2ex.com/t/226413 刚才回顾了下这个帖子,他上面说的是 30w/天,如果是有 3 -5 个 IP 的话也就半个月就能爬到千万数量级了吧....
easychen
2015-10-11 12:15:43 +08:00
@lizheming thanks :) 百度自己给出来的总量也就在 6000 万。
wbingeek
2015-10-11 12:19:57 +08:00
最近用的是这个 http://www.bdybbs.com/
cevincheung
2015-10-11 13:28:58 +08:00
代理 ip 资源十几块一大把还是高质量高出口带宽的
easychen
2015-10-11 13:59:27 +08:00
@cevincheung 求个链接看看~
cdwyd
2015-10-11 14:04:28 +08:00
@cevincheung
求地址
zdyx123
2015-10-11 14:07:39 +08:00
@cevincheung 同求一个地址
gzlock
2015-10-11 14:24:28 +08:00
@easychen
@cdwyd
@zdyx123
淘*搜 拨号
Coxxs
2015-10-11 14:25:26 +08:00
曾经抓过一年左右,索引过一亿+文件,每秒都在抓,用 1 、 2 个 IP 没被封。 https://so.cqp.cc/
easychen
2015-10-11 14:29:49 +08:00
@Coxxs 偷偷问一句从哪个入口开始抓比较方便哇…… 搜索结果页好像限制显示页数……
Coxxs
2015-10-11 14:33:26 +08:00
@easychen 以前每个文件有“相关文件”,可以通过相关文件抓,但是现在没有了。后来用的方法就是获取用户 ID ( uk ),然后遍历用户分享的文件。
easychen
2015-10-11 14:34:39 +08:00
@Coxxs thanks :)
techyan
2015-10-11 14:36:03 +08:00
@Coxxs 网站已收藏。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/227092

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX