最近一直在用 http://kaopu.so/ 看样子索引了很大量的内容,话说百度本身不对访问 IP 做频次控制么?
|  |      1lizheming      2015-10-11 11:53:37 +08:00 看过之前一个爬虫的帖子,说是 5 分钟一次,做好频率控制多 IP 轮流就好了吧… | 
|  |      2d7101120120      2015-10-11 11:54:00 +08:00 嘘小声点~~~~ | 
|  |      3pathletboy      2015-10-11 11:54:16 +08:00 频次控制不大好做的,现在网络很多都内网了,出口都是一个 IP 。 | 
|  |      4gzlock      2015-10-11 11:54:51 +08:00 via Android 也没法证明是用同一 IP 爬的啊 | 
|      7kslr      2015-10-11 12:02:04 +08:00 比如 Coding 支持运行程序的,可以做个 Proxy ,类似的还很多,也很稳定。 | 
|  |      8lizheming      2015-10-11 12:08:43 +08:00 @easychen https://www.v2ex.com/t/226413 刚才回顾了下这个帖子,他上面说的是 30w/天,如果是有 3 -5 个 IP 的话也就半个月就能爬到千万数量级了吧.... | 
|      10wbingeek      2015-10-11 12:19:57 +08:00 最近用的是这个 http://www.bdybbs.com/ | 
|  |      11cevincheung      2015-10-11 13:28:58 +08:00 via Android 代理 ip 资源十几块一大把还是高质量高出口带宽的 | 
|  |      12easychen OP @cevincheung 求个链接看看~ | 
|      13cdwyd      2015-10-11 14:04:28 +08:00 via Android @cevincheung  求地址 | 
|  |      14zdyx123      2015-10-11 14:07:39 +08:00 @cevincheung 同求一个地址 | 
|  |      16Coxxs      2015-10-11 14:25:26 +08:00 曾经抓过一年左右,索引过一亿+文件,每秒都在抓,用 1 、 2 个 IP 没被封。 https://so.cqp.cc/ | 
|  |      18Coxxs      2015-10-11 14:33:26 +08:00 @easychen 以前每个文件有“相关文件”,可以通过相关文件抓,但是现在没有了。后来用的方法就是获取用户 ID ( uk ),然后遍历用户分享的文件。 | 
|  |      21cevincheung      2015-10-11 14:43:57 +08:00  1 | 
|      22fighter2011      2015-10-11 14:47:08 +08:00 这种不会被 ban 吧,有很多都是磁力搜索的啊。 | 
|  |      23easychen OP @cevincheung thanks :) | 
|  |      24gamecreating      2015-10-11 19:25:47 +08:00  2 | 
|      25Pepsigold      2015-10-12 08:29:38 +08:00 via Android @gamecreating 怎么进去都是代码了? | 
|      26starAsh      2015-10-12 09:33:26 +08:00 直接 google 搜 xxx site:pan.baidu.com 即可,然后对搜索出来的结果处理就行了 | 
|      27Roope      2015-10-12 14:25:06 +08:00 @gamecreating  这个好啊。 | 
|      303023369823      2016-08-22 23:12:07 +08:00 失效链接怎么判断,这才是关键,求解释?@dotmark @Coxxs  @Pepsigold  @cdwyd  @d7101120120  @dotmark  @easychen  @gamecreating  @fighter2011 |