中秋发布,写了一个用于 scrapy 爬虫的自动代理中间件

2016-09-15 14:04:36 +08:00
 cocoakekeyu

首先祝贺大家中秋节快乐。

用于 scrapy 爬虫的自动代理中间件。一般写爬虫时都可能会遇到被爬取网站拒绝访问等情况,接下来就是想使用代理连接,但是好用的代理收费,免费的代理大部分又连接不上。想到写一个自动抓取和切换代理的中间件来解决,抓取的代理都会进行测试,可设置爬虫抓取的网站来测试代理,保证代理可用性。使用 BeautifulSoup 简单筛选网页的代理,所以需要先安装 BeautifulSoup 。

中间件地址: https://github.com/cocoakekeyu/autoproxy 里面有一个简单的抓取花瓣网图片爬虫作为测试。

下面直接照搬README:

AutoProxyMiddleware

简介

一个用于 scrapy 爬虫的自动代理中间件。可自动抓取和切换代理,自定义抓取和切换规则。

用法

将中间件模块放置到项目中,并在项目设置文件中添加该中间件。如

DOWNLOADER_MIDDLEWARES = {
    'projectname.autoproxy.AutoProxyMiddleware': 543,
}

配置

可在项目配置文件中使用AUTO_PROXY配置项配置代理中间件。如

AUTO_PROXY = {
	'test_urls':[('http://upaiyun.com','online'),('http://huaban.com', '33010602001878')],
	'ban_code':[500,502,503,504],
}

所有可用配置

最后,可能有意想不到的情况。毕竟失业了。

5318 次点击
所在节点    分享创造
3 条回复
123313
2016-09-16 14:46:51 +08:00
莫非你就是…………
cocoakekeyu
2016-09-16 19:25:02 +08:00
@123313 是什么⊙ˍ⊙
BruceWang
2016-10-09 15:34:57 +08:00
@cocoakekeyu 我猜他想说的是五仁月饼……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/306442

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX