听说今天情人节。开源一个爬虫代理框架,各位大神轻喷

2017-02-14 00:12:29 +08:00
 awolfly9

听说开源才能走的更高更远,才能让自己成长,所以尝试自己写的爬虫代理框架 IPProxyTools 。各位大神轻喷。

使用 scrapy 爬虫抓取代理网站,获取大量的免费代理 ip 。过滤出所有可用的 ip ,存入数据库以备使用。

github 地址: https://github.com/awolfly9/IPProxyTool

7386 次点击
所在节点    Python
43 条回复
awolfly9
2017-02-15 08:59:38 +08:00
@botman 现在是一个站点一个脚本,非常方便维护,而且相互之间可以没有影响和关联
fuxkcsdn
2017-02-15 11:34:45 +08:00
那个...运行了半小时左右, 66ip 就抓到 6 个代理...不合理啊...只抓取首页吗??
半小时就只抓到 279 个代理 IP ,略少...
awolfly9
2017-02-15 12:43:27 +08:00
@fuxkcsdn 我只抓了首页,因为在之前的测试中发现后面的很多 IP 都失效了,抓下来也没什么作用。如果想要抓取多页,只需要到 sixsixip.py 中 self.urls = ['http://m.66ip.cn/%s.html' % n for n in range(1, 2)] 更改 2 为 想要抓取的页数

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/340272

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX