听说今天情人节。开源一个爬虫代理框架,各位大神轻喷

2017-02-14 00:12:29 +08:00
 awolfly9

听说开源才能走的更高更远,才能让自己成长,所以尝试自己写的爬虫代理框架 IPProxyTools 。各位大神轻喷。

使用 scrapy 爬虫抓取代理网站,获取大量的免费代理 ip 。过滤出所有可用的 ip ,存入数据库以备使用。

github 地址: https://github.com/awolfly9/IPProxyTool

7385 次点击
所在节点    Python
43 条回复
Clarencep
2017-02-14 13:01:45 +08:00
已 star
yesineedroot
2017-02-14 14:12:31 +08:00
感谢分享!
kutata
2017-02-14 14:59:37 +08:00
感谢分享~
holyzhou
2017-02-14 15:24:45 +08:00
通过 8000 端口 我怎么能拿到最近的按照响应排序好的可用的 http 地址 好像 api 接口有点弱。
"http://127.0.0.1:8000/select?name=douban",我没理解这里的豆瓣是做什么用的
vh2h
2017-02-14 15:38:21 +08:00
我提一个问题。你开源一个爬虫代理框架,和今天是情人节之间有什么关系呢?这之间没有任何逻辑可言嘛!
lwd2136
2017-02-14 15:40:45 +08:00
不错,已经收藏。
herozzm
2017-02-14 15:47:37 +08:00
验证是关键,不然大量无用 ip ,功能就废了
qsnow6
2017-02-14 16:10:13 +08:00
@dongxiaozhuo 之前也想要这么操作,有没有示例
Inn0cence
2017-02-14 17:47:26 +08:00
爬虫菜🐔学习。马可 学习下
yuansmin
2017-02-14 18:20:48 +08:00
项目挺不错的,赞一个。不过这个瓶颈主要还是网上的免费代理不靠谱啊
holyzhou
2017-02-14 18:27:34 +08:00
@awolfly9 感谢, 用了半天 还不错 改了 scan 的频率, 拿到的地址比我 1 块钱淘宝买的靠谱些,但也会有连接失败的,再者就是拿到的数量并不多(通过 http://127.0.0.1:8000/select?name=douban 拿到的)
awolfly9
2017-02-14 19:49:10 +08:00
@holyzhou 可用的代理 ip 会随着时间的增加而增加。由于我抓取的站点比较少,而且那些站点更新免费 ip 也很慢,所以有效的 ip 会随着时间增加而不断积累。失效的 ip 会被淘汰。
awolfly9
2017-02-14 19:49:32 +08:00
@yuansmin 你说的很对
gamecmt
2017-02-14 20:22:58 +08:00
强,已 star
botman
2017-02-14 21:22:57 +08:00
好项目,表示去年也写过一个类似的项目,做爬虫必备良品啊,给 lz 顶一个先。
给点建议,既然是写框架就不建议把代理站点硬编码进去,因为现在不少开放代理站点需要进行 js 解析才能拿到代理,所以不同的开放代理站点的解析规则也是不同的,建议把这部分功能里独立开来,规则大家可以一起维护。
liangmishi
2017-02-14 22:08:49 +08:00
感谢开源~
Nyloner
2017-02-14 23:10:40 +08:00
哈哈,前段时间也写了一个类似项目: http://nyloner.cn/proxy
mingyun
2017-02-14 23:16:32 +08:00
130+ 收藏,厉害了
anexplore
2017-02-14 23:20:08 +08:00
年前搞了一个扫描 ip:port 查找 http 代理的,功能还不完善。 https://github.com/anexplore/proxydetector.git
DevilBin
2017-02-15 08:32:16 +08:00
已 star

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/340272

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX