彻底搞懂 Scrapy 的中间件(一)

2018-11-19 12:56:56 +08:00
 itskingname

中间件是 Scrapy 里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。

“中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据,做一些修改再把数据传递出去。不同点在于,中间件是开发者主动加进去的组件,而中间人是被动的,一般是恶意地加进去的环节。中间件主要用来辅助开发,而中间人却多被用来进行数据的窃取、伪造甚至攻击。

在 Scrapy 中有两种中间件:下载器中间件( Downloader Middleware )和爬虫中间件( Spider Middleware )。

这一篇主要讲解下载器中间件的第一部分。

下载器中间件

Scrapy 的官方文档中,对下载器中间件的解释如下。

下载器中间件是介于 Scrapy 的 request/response 处理的钩子框架,是用于全局修改 Scrapy request 和 response 的一个轻量、底层的系统。

这个介绍看起来非常绕口,但其实用容易理解的话表述就是:更换代理 IP,更换 Cookies,更换 User-Agent,自动重试。

如果完全没有中间件,爬虫的流程如下图所示。

使用了中间件以后,爬虫的流程如下图所示。

开发代理中间件

在爬虫开发中,更换代理 IP 是非常常见的情况,有时候每一次访问都需要随机选择一个代理 IP 来进行。

中间件本身是一个 Python 的类,只要爬虫每次访问网站之前都先“经过”这个类,它就能给请求换新的代理 IP,这样就能实现动态改变代理。

在创建一个 Scrapy 工程以后,工程文件夹下会有一个 middlewares.py 文件,打开以后其内容如下图所示。

Scrapy 自动生成的这个文件名称为 middlewares.py ,名字后面的 s 表示复数,说明这个文件里面可以放很多个中间件。Scrapy 自动创建的这个中间件是一个爬虫中间件,这种类型在第三篇文章会讲解。现在先来创建一个自动更换代理 IP 的中间件。

middlewares.py 中添加下面一段代码:

class ProxyMiddleware(object):

    def process_request(self, request, spider):
        proxy = random.choice(settings['PROXIES'])
        request.meta['proxy'] = proxy

要修改请求的代理,就需要在请求的 meta 里面添加一个 Key 为 proxy,Value 为代理 IP 的项。

由于用到了 random 和 settings,所以需要在 middlewares.py 开头导入它们:

import random
from scrapy.conf import settings

在下载器中间件里面有一个名为process_request()的方法,这个方法中的代码会在每次爬虫访问网页之前执行。

打开 settings.py ,首先添加几个代理 IP:

PROXIES = ['https://114.217.243.25:8118',
          'https://125.37.175.233:8118',
          'http://1.85.116.218:8118']

需要注意的是,代理 IP 是有类型的,需要先看清楚是 HTTP 型的代理 IP 还是 HTTPS 型的代理 IP。如果用错了,就会导致无法访问。

激活中间件

中间件写好以后,需要去 settings.py 中启动。在 settings.py 中找到下面这一段被注释的语句:

# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'AdvanceSpider.middlewares.MyCustomDownloaderMiddleware': 543,
#}

解除注释并修改,从而引用 ProxyMiddleware。修改为:

DOWNLOADER_MIDDLEWARES = {
  'AdvanceSpider.middlewares.ProxyMiddleware': 543,
}

这其实就是一个字典,字典的 Key 就是用点分隔的中间件路径,后面的数字表示这种中间件的顺序。由于中间件是按顺序运行的,因此如果遇到后一个中间件依赖前一个中间件的情况,中间件的顺序就至关重要。

如何确定后面的数字应该怎么写呢?最简单的办法就是从 543 开始,逐渐加一,这样一般不会出现什么大问题。如果想把中间件做得更专业一点,那就需要知道 Scrapy 自带中间件的顺序,如图下图所示。

数字越小的中间件越先执行,例如 Scrapy 自带的第 1 个中间件RobotsTxtMiddleware,它的作用是首先查看 settings.pyROBOTSTXT_OBEY这一项的配置是True还是False。如果是True,表示要遵守 Robots.txt 协议,它就会检查将要访问的网址能不能被运行访问,如果不被允许访问,那么直接就取消这一次请求,接下来的和这次请求有关的各种操作全部都不需要继续了。

开发者自定义的中间件,会被按顺序插入到 Scrapy 自带的中间件中。爬虫会按照从 100 ~ 900 的顺序依次运行所有的中间件。直到所有中间件全部运行完成,或者遇到某一个中间件而取消了这次请求。

Scrapy 其实自带了 UA 中间件( UserAgentMiddleware )、代理中间件( HttpProxyMiddleware )和重试中间件( RetryMiddleware )。所以,从“原则上”说,要自己开发这 3 个中间件,需要先禁用 Scrapy 里面自带的这 3 个中间件。要禁用 Scrapy 的中间件,需要在 settings.py 里面将这个中间件的顺序设为 None:

DOWNLOADER_MIDDLEWARES = {
  'AdvanceSpider.middlewares.ProxyMiddleware': 543,
  'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
  'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': None
}

为什么说“原则上”应该禁用呢?先查看 Scrapy 自带的代理中间件的源代码,如下图所示:

从上图可以看出,如果 Scrapy 发现这个请求已经被设置了代理,那么这个中间件就会什么也不做,直接返回。因此虽然 Scrapy 自带的这个代理中间件顺序为 750,比开发者自定义的代理中间件的顺序 543 大,但是它并不会覆盖开发者自己定义的代理信息,所以即使不禁用系统自带的这个代理中间件也没有关系。

完整地激活自定义中间件的 settings.py 的部分内容如下图所示。

配置好以后运行爬虫,爬虫会在每次请求前都随机设置一个代理。要测试代理中间件的运行效果,可以使用下面这个练习页面:

http://exercise.kingname.info/exercise_middleware_ip

这个页面会返回爬虫的 IP 地址,直接在网页上打开,如下图所示。

这个练习页支持翻页功能,在网址后面加上“/页数”即可翻页。例如第 100 页的网址为:

http://exercise.kingname.info/exercise_middleware_ip/100

使用了代理中间件为每次请求更换代理的运行结果,如下图所示。

代理中间件的可用代理列表不一定非要写在 settings.py 里面,也可以将它们写到数据库或者 Redis 中。一个可行的自动更换代理的爬虫系统,应该有如下的 3 个功能。

  1. 有一个小爬虫 ProxySpider 去各大代理网站爬取免费代理并验证,将可以使用的代理 IP 保存到数据库中。
  2. 在 ProxyMiddlerware 的 process_request 中,每次从数据库里面随机选择一条代理 IP 地址使用。
  3. 周期性验证数据库中的无效代理,及时将其删除。 由于免费代理极其容易失效,因此如果有一定开发预算的话,建议购买专业代理机构的代理服务,高速而稳定。

开发 UA 中间件

开发 UA 中间件和开发代理中间件几乎一样,它也是从 settings.py 配置好的 UA 列表中随机选择一项,加入到请求头中。代码如下:

class UAMiddleware(object):

    def process_request(self, request, spider):
        ua = random.choice(settings['USER_AGENT_LIST'])
        request.headers['User-Agent'] = ua

比 IP 更好的是,UA 不会存在失效的问题,所以只要收集几十个 UA,就可以一直使用。常见的 UA 如下:

USER_AGENT_LIST = [
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
  "Dalvik/1.6.0 (Linux; U; Android 4.2.1; 2013022 MIUI/JHACNBL30.0)",
  "Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; HUAWEI MT7-TL00 Build/HuaweiMT7-TL00) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
  "AndroidDownloadManager",
  "Apache-HttpClient/UNAVAILABLE (java 1.4)",
  "Dalvik/1.6.0 (Linux; U; Android 4.3; SM-N7508V Build/JLS36C)",
  "Android50-AndroidPhone-8000-76-0-Statistics-wifi",
  "Dalvik/1.6.0 (Linux; U; Android 4.4.4; MI 3 MIUI/V7.2.1.0.KXCCNDA)",
  "Dalvik/1.6.0 (Linux; U; Android 4.4.2; Lenovo A3800-d Build/LenovoA3800-d)",
  "Lite 1.0 ( http://litesuits.com )",
  "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)",
  "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0",
  "Mozilla/5.0 (Linux; U; Android 4.1.1; zh-cn; HTC T528t Build/JRO03H) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30; 360browser(securitypay,securityinstalled); 360(android,uppayplugin); 360 Aphone Browser (2.0.4)",
]

配置好 UA 以后,在 settings.py 下载器中间件里面激活它,并使用 UA 练习页来验证 UA 是否每一次都不一样。练习页的地址为:

http://exercise.kingname.info/exercise_middleware_ua。 

UA 练习页和代理练习页一样,也是可以无限制翻页的。

运行结果如下图所示。

开发 Cookies 中间件

对于需要登录的网站,可以使用 Cookies 来保持登录状态。那么如果单独写一个小程序,用 Selenium 持续不断地用不同的账号登录网站,就可以得到很多不同的 Cookies。由于 Cookies 本质上就是一段文本,所以可以把这段文本放在 Redis 里面。这样一来,当 Scrapy 爬虫请求网页时,可以从 Redis 中读取 Cookies 并给爬虫换上。这样爬虫就可以一直保持登录状态。

以下面这个练习页面为例:

http://exercise.kingname.info/exercise_login_success

如果直接用 Scrapy 访问,得到的是登录界面的源代码,如下图所示。

现在,使用中间件,可以实现完全不改动这个 loginSpider.py 里面的代码,就打印出登录以后才显示的内容。

首先开发一个小程序,通过 Selenium 登录这个页面,并将网站返回的 Headers 保存到 Redis 中。这个小程序的代码如下图所示。

这段代码的作用是使用 Selenium 和 ChromeDriver 填写用户名和密码,实现登录练习页面,然后将登录以后的 Cookies 转换为 JSON 格式的字符串并保存到 Redis 中。

接下来,再写一个中间件,用来从 Redis 中读取 Cookies,并把这个 Cookies 给 Scrapy 使用:

class LoginMiddleware(object):
    def __init__(self):
        self.client = redis.StrictRedis()
    
    def process_request(self, request, spider):
        if spider.name == 'loginSpider':
            cookies = json.loads(self.client.lpop('cookies').decode())
            request.cookies = cookies

设置了这个中间件以后,爬虫里面的代码不需要做任何修改就可以成功得到登录以后才能看到的 HTML,如图 12-12 所示。

如果有某网站的 100 个账号,那么单独写一个程序,持续不断地用 Selenium 和 ChromeDriver 或者 Selenium 和 PhantomJS 登录,获取 Cookies,并将 Cookies 存放到 Redis 中。爬虫每次访问都从 Redis 中读取一个新的 Cookies 来进行爬取,就大大降低了被网站发现或者封锁的可能性。

这种方式不仅适用于登录,也适用于验证码的处理。

这一篇就讲到这里,在下一篇,我们将会介绍如何在下载器中间件中集成 Selenium,进行请求重试和处理异常。

本文节选自我的新书《 Python 爬虫开发 从入门到实战》完整目录可以在京东查询到 https://item.jd.com/12436581.html

买不买书不重要,重要的是请关注我的公众号:未闻 Code

公众号已经连续日更三个多月了。在接下来的很长时间里也会连续日更。

2333 次点击
所在节点    分享创造
6 条回复
itskingname
2018-11-19 14:28:48 +08:00
比较奇怪,为什么掉出首页了。被降权了吗?
957204459
2018-11-20 09:40:16 +08:00
不错,期待下一篇
itskingname
2018-11-20 09:45:43 +08:00
godluo
2018-11-22 00:49:18 +08:00
很好,刚好在学 scrapy。
itskingname
2018-11-22 07:57:44 +08:00
@godluo 那不如买一本我的书?
godluo
2018-11-23 00:21:48 +08:00
@itskingname 读完现在这本一定拜读您的大作。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/509221

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX