少年来一发,分享一个抓取豆瓣妹子的代码

2014-10-25 17:10:27 +08:00
 wengang285
之前看到有很多抓取豆瓣害羞组图片的帖子,我也凑凑热闹,发一个PHP版本的

1、支持自动代理,无视豆瓣屏蔽
2、记录上次下载的页数
3、多进程下载

只支持linux系统

送上地址:
https://github.com/wengang285/HotGirlClaw

准备好你们的硬盘吧,骚年
http://gavinwen-topic.qiniudn.com/douban.jpg
11758 次点击
所在节点    分享创造
30 条回复
spacewander
2014-10-26 01:04:03 +08:00
@x86 没有女朋友就不用担心了
binux
2014-10-26 15:06:14 +08:00
看到你还专门写一个爬虫。。于是:
demo.pyspider.org + 多说做数据库 + 一个html = 豆瓣害羞组读图版

https://f.binux.me/haixiuzu.html
wengang285
2014-10-27 00:01:05 +08:00
@binux 赞~
laotaitai
2014-10-27 00:34:05 +08:00
豆瓣的防爬虫机制做的很烂的, 把header里的bid换掉即可, 比如每次请求都把bid的值给换掉,用不着代理.

不信? 看我的:https://github.com/laomayi/doubanspiders

可直达:https://github.com/laomayi/doubanspiders/blob/master/douban/album/misc/middlewares.py 这文件看我写的bid

搞代码多麻烦, 速度又慢.
wengang285
2014-10-27 13:51:02 +08:00
@laotaitai 哈哈,我以为是对ip进行限制呢
laotaitai
2014-10-27 14:05:35 +08:00
@wengang285 要是豆瓣防爬虫的机制还没变的话, 记得给我点那doubanspiders的star哈.
jacob
2014-10-27 17:29:15 +08:00
php新手,请问lz,如果想看懂你的代码,需要哪些知识,希望指点
wengang285
2014-10-27 18:39:08 +08:00
@laotaitai 已点
wengang285
2014-10-27 18:39:25 +08:00
@jacob 懂php就行
ywencn
2016-01-25 16:42:52 +08:00
补充两个代理 IP 的网站
http://www.ip84.com
http://www.mimiip.com

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/141476

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX