自己做的一个百度云盘搜索引擎,大家支持下。嘻嘻

2015-10-08 20:24:45 +08:00
 k1995

之前也写过百度云盘爬虫,不过结果是来自 Google 自定义搜索结果,这次自己写了一个百度云盘爬虫程序, 2 天爬取了 60W 数据,其实能够能多,主要是百度有反爬虫机制,爬了几分钟后需要 5 分钟后再次爬取。
网址: http://pan.whatsoo.com
刚刚上线,许多功能还在更新。。。

7800 次点击
所在节点    问与答
19 条回复
abelyao
2015-10-08 22:29:38 +08:00
竟然没人回复…
60W 数据太少啦,搜个 “苍井空” 都说没结果,怎么可能呢~ 试了一下深度搜索果然还是有的~
那你就弄两个 IP 嘛,每个爬 5 分钟轮流~ 爬个 600W / 6000W 数据之后可以直接卖数据咯~
k1995
2015-10-08 23:06:41 +08:00
前两天才开始爬,数据量确实有点少。以后弄个分布式爬虫,应该就开了
abelyao
2015-10-08 23:13:29 +08:00
@k1995 相比之下更好奇你的爬虫 [抠鼻]
xiaoz
2015-10-09 08:48:52 +08:00
mark ,已收藏。
lycos
2015-10-09 09:33:45 +08:00
没有公开的 隐私设置的 可以爬到吗?
k1995
2015-10-09 09:41:43 +08:00
@lycos 这个,还真没研究过。估计不行
easychen
2015-10-11 14:22:39 +08:00
弱弱的问一句,从哪儿找百度的网盘的文件索引?直接用 site:pan.baidu.com 搜, 70 多页以后就不显示数据了。
fishlee
2015-10-11 15:01:52 +08:00
分布式爬虫不好控制
k1995
2015-10-11 16:11:21 +08:00
@easychen 肯定不是用 site:pan.baidu.com 直接分析百度云数据包,爬取好友列表
easychen
2015-10-11 16:33:24 +08:00
@k1995 thanks :)
BuilderQiu
2015-10-12 00:34:36 +08:00

k1995
2015-10-12 10:46:48 +08:00
@BuilderQiu 嗯,我昨天在调试,手误,很快就改回来了
inmyfree
2015-10-12 11:47:28 +08:00
@BuilderQiu
@k1995

哈哈, ThinkPHP
cdwyd
2015-10-14 09:25:21 +08:00
你好,怎么过的百度反爬虫机制,测试连续请求 50 次左右 就被屏蔽了
k1995
2015-10-14 09:36:34 +08:00
@cdwyd 1 ,降低爬去频率,比如 2 秒请求一次
2 ,屏蔽只是一段时间,几分钟后会自动恢复,所以可以继续爬取
k1995
2015-12-08 16:49:28 +08:00
whatsoo#com 已被墙,需要的朋友可以访问新域名 http://pan.ibying.com
sadara
2016-02-03 14:02:57 +08:00
开源吗?怎么授权
k1995
2016-02-03 14:49:22 +08:00
@sadara 过段时间会开源,近期较忙,==
jabingu
2020-01-10 10:20:39 +08:00
新域名不行,打开是博彩网站

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/226413

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX