php 的爬虫经验分享

2016-11-30 12:08:16 +08:00
 gouchaoer

最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫(上)

入职冰鉴科技做爬虫开发已经半年多了,陆续开发维护了几个爬虫以后终于在 web 端爬虫这一块有了登堂入室的感觉。中间踩了许多坑,也对爬虫的许多细节有了自己的认识,所以今天希望能分享一些爬虫经验。虽然爬虫的很多东西不好说太细,因为说太细了别人马上有针对性的反爬虫了,而且很多技巧业界没用通用的解决方案(别人就算做出来了也不太愿意分享),都是我自己慢慢摸索出来的。但是我认为适当的业界 /友商之间的技术交流是必要的,不能闭门造车,我也渴望能和业界 /友商有更多私下的深入交流,大家多切磋才能进步嘛。最近我在研究 app 反编译爬虫相关的,所以对这块特别感兴趣。个人博客: qsalg.com

为什么是 PHP

其实就目前业界来说, python 下的爬虫轮子是最多的,我厂大多数同学都用 python 搞爬虫。我由于原来搞 web 后端用 PHP 比较多,对 PHP 下的生态和第三方库啥的如数家珍,厂里对使用的语言也不做强制要求,所以我就用最拿手的 PHP 开搞了。有同学可能会觉得 PHP 下爬虫轮子似乎不多,甚至有部分做惯了 PHP 后台的同学在需要完成爬虫任务时也拿起了 python ,难道 PHP 就不适合搞爬虫么?我认为恰恰相反, PHP 在 web 领域积累了大量成熟的第三方库,而且其强大的内容处理能力使之在需要琐碎处理的爬虫任务中如鱼得水。爬虫从运行时间上大致可以分为两种: 1 、实时的爬虫:一个请求来了我就开一个爬虫去爬取结果,一般情况下这种爬虫直接对外提供 API ; 2 、长期爬虫:这种爬虫一般会一直运行或者定期运行,把数据更新入库。一般来说这 2 种爬虫都需要比较频繁的维护更新, PHP 作为一门部署简单的脚本语言,可以实施热更新爬虫代码,非常方便。

使用第三方库

用 PHP 搞爬虫请利用好 composer 下的第三方库。 PHP 在 web 领域积累了大量成熟的第三方库,基本上你想得到的库都能在 github 上都能找到,如果你不用第三方库的话,那么你就等于放弃了 PHP 在 web 领域的巨大优势。爬虫相关的 PHP 第三方库我用的比较多的有:

1 、 Guzzle :功能很完善的 httpclient ,带异步并发功能,别的脚本语言找不到这么好的 httpclient

2 、 Goutte :对 symfony 的 dom-crawler 和 css-selector 的简单封装,你也可以直接用 symfony 的 css-selector 来抽取 html 的 dom 元素

3 、 symfony/process : symfony 出品的 php 开进程的库(封装的 proc_open ),兼容 windows ,要知道 pcntl 扩展不支持 windows 的

4 、 php-webdriver : Facebook 官方维护的 selenium 的 php 客户端

前段时间有一个《我用爬虫一天时间“偷了”知乎一百万用户,只为证明 PHP 是世界上最好的语言》,这个 repo 很受关注也一直在维护。我也研究了一下他的代码,质量很高,但是有一个缺点就是没有使用现有的第三方库而选择自己封装。我们应该把精力花在爬虫业务上而不是去从新造轮子,我平时直接无脑的使用现有的 composer 下的各种第三方库。我从今年 4 月份入职到现在 8 个月时间只写了 3 个爬虫(除了爬虫业务外,基于 redis 的分布式爬虫调度、单机多爬虫并发、报警+监控+参数控制、 selenium 多浏览器匹配+特性定制、代理策略定制 and so on )一套下来,所有代码都加起来只有 6000 行 PHP 代码。已经有现成的成熟稳定的第三方库不用,自己造轮子是得不偿失的。

多线程、多进程和异步

爬虫不能不说到并发,爬虫作为一个 IO 密集型而不是 CPU 密集型的任务,一个好的并发的爬虫应该满足: 1 、尽量可能高的下载带宽(下载带宽越高,爬的数据越多); 2 、尽可能小的 CPU 消耗和尽可能小的内存消耗。 多线程似乎是实现并发的不错的方式,经常有人说“ PHP 没有多线程”让广大 PHPer 直不起腰。作为 web 后端的时候 PHP 没法使用多线程,但是作为命令行运行的话 PHP 是支持多线程的。我们知道 PHP 分为线程安全( ZTS )和非线程安全版本( NTS ),后者其实是为了兼容 win 下 IIS 的 ISAPI ,这也就逼着 PHP 下的扩展基本上都提供的线程安全和非线程安全版本。也就是说从理论上来说命令行的 PHP 多线程是真的多线程,没有像 py 或者 ruby 那样的全局锁(实际上同一时刻只有一个线程在跑),但是实际上 PHP 命令行多线程不太稳定(毕竟它的多线程不是为 php-cli 设计的),所以我建议命令行应用还是使用多进程来做并发。 而异步也是实现并发的重要方法,爬虫需要并发的大多数情况是我想是同时去爬多个 url ,这种情况无须使用多进程 /多线程,直接在单进程中使用异步就可以了。比如 PHP 的 Guzzle 异步支持非常好用, Guzzle 默认异步是包装的 curl 的 curl_multi 的几个函数来做的,如果你想用性能更好的异步事件库可以设置 Guzzle 的 adapter 为 react-guzzle-psr7 (当然了你得安装 Event 之类的异步 pecl 扩展)。我个人试用下来觉得 Guzzle 默认的异步就够用了,单进程并发几十上百的 http 请求跑满小水管那是不成问题的, cpu 和内存消耗还很小。总之,把 php 的多进程和异步合起来用,实现良好的并发不是问题。

关于爬虫框架

开箱即用封装好的爬虫框架不是银弹。我一开始也研究了 java 和 py 下的一些比较著名的框架,企图先把这些框架学会然后把自己的爬虫任务整合进去,后来发现这么做很困难。诚然用爬虫框架基本上改两行就可以跑起来了,对简单的爬虫任务来说很不错。但是用别人封装好的框架会导致爬虫的定制性变差(要知道爬虫是需要灵活处理各种情况的),而我们知道爬虫的本质就是开着 httpclient 取回 html 然后 dom 抽取数据就完了(并发的话再加个多进程管理),就这么简单的任务为了尽可能满足所有人需要被封装成了一个复杂系统的框架,并不一定适合所有的情况。有一次 V2EX 上也有人出来质疑说我直接用 requests 也很简单啊, scrapy 的优势在哪里呢?我的理解是爬虫框架的优势就在于把爬虫的并发调度都做了,而我们直接单进程来写爬虫的话只能是一个单进程爬虫没有并发调度。其实爬虫的多进程并发调度没那么复杂,也不需要搞太复杂,我说说我的 php 爬虫是怎么做并发调度的( python 下一回事)。

爬虫多进程调度

我的 PHP 爬虫多进程调度比较简单粗暴,爬虫分为管理爬虫进程的 Master 进程和负责具体爬取业务的 worker 进程,而 redis 负责对爬虫进行控制以及显示爬虫的状态。

比如我有一个爬取 A 站点的爬虫任务,我开发好爬虫 Worker A 以后,我可以在 redis 中设置在服务器 Node1 上我开 2 个 Worker A 来爬,而 Node1 上的 master1 进程会定期去 redis 中读取控制参数,如果发现 Node1 上的 Worker A 进程不足 2 个的话就会新开 Worker A 进程补充。当然了,控制参数需要包含哪些你可以自己定制,比如我就定制了每个节点的 Worker 上限、使用的代理策略、是否禁止加载图片、浏览器特性定制等等。 Master 进程新开 Worker 进程有 2 种方式,一种是通过类 exec (比如在 Master 进程中 proc_open(‘ php Worker.php balabala ’, $descriptorspec, $pipes)这样)调用来开一个新的命令行 php 的 Worker 进程,另外就是通过 fork 机制来做。我采用了类 exec 调用的方法(其实是 symfony/process 库,它封装的 proc_open 函数来开的进程)来开 Worker 进程(如果要传命令行参数给 Worker 进程注意使用 base64 编码一下,因为命令行可能会过滤某些参数),这么做的好处就是解耦。需要注意的是,现在 Worker 进程都是 Master 进程的子进程,所以 Master 进程退出的话所有 Worker 进程也会退出,所以 Master 进程注意异常的 catch ,尤其是 redis 、数据库和别的有网络 io 的地方。如果你希望 Worker 进程 damonize 的话请按这篇文章的方法来( php 下也是一样的,不过不兼容 windows )。 我不建议 Master 进程通过 IPC 机制对 Worker 进程进行控制,因为这么做一下子就让 Master 进程和 Worker 进程耦合起来了, Master 进程应该只是简单的负责开 Worker 进程而已。对 Worker 进程的控制可以通过 Redis 来完成,也就是说 Worker 进程每隔一段时间(可以是完成了一次 http 请求,或者每隔几秒)可以去 Redis 读一次控制参数(如果需要的话,也可以到汇报一下自己状态,参数比较多的话用好 redis 的 pipeline ),在实践中这种方法工作的很好。 我的 PHP 爬虫中都采用了这个简单粗暴的方案,我认为它的好处有 4 个:

1 、支持分布式且依赖简单,参数控制+状态汇报直接通过单一的 redis 节点。我推荐你用一个好的 redis 的 GUI 工具来管理 redis , redis 的 5 种数据结构用来做爬虫参数控制+爬虫状态显示非常方便

2 、 Master 进程和 Worker 进程解耦,而且可以解决爬虫较多发生的内存泄漏问题( Worker 进程跑完直接退出),也可以热更新代码

3 、实时爬虫可以通过 Master 进程抢占 push 到 redis list 中的请求来做,而长期任务的爬虫在 Worker 进程意外退出后 Master 进程立刻补充,能适应各种爬虫任务

4 、开发爬虫只用去写 Worker 进程就 ok 了,开发方便,不用关心调度问题

缺点当然就是这一套机制都需要你自己写,高度可定制性的代价就是自己动手。

总结

把我的 PHP 下爬虫经验的几个方面拿出来讲了一下,由于篇幅有限 Selenium 相关的经验就留到下次再说了。

以上

28865 次点击
所在节点    PHP
75 条回复
a67793581
2016-11-30 23:52:56 +08:00
好文 感谢分享
IMRES
2016-12-01 00:41:08 +08:00
写得不错
setonfocus
2016-12-01 08:43:47 +08:00
楼上撕的也漂亮!!!
Clarencep
2016-12-01 09:05:52 +08:00
速度怎么样? phantomjs + webdrive 好像效率蛮低的说。

phpquery 稳定吗? 与 python 的 beatifulsoup 相比怎么样?
ety001
2016-12-01 09:48:23 +08:00
我也是 phper ,虽然基本不写爬虫,但是还是觉得用 python 写爬虫最大的优势就是在于 python 是 linux 的预装软件。如果只是想在一台机器上跑 worker ,这样的优势是巨大的。
ctftemp
2016-12-01 09:59:13 +08:00
谢谢分享,有几个问题。
您这种框架是针对每一个要抓的站点写一个 worker 程序吗?
对一个站点起多个 worker 同时抓取时,多个 worker 是怎么通信避免重复抓取的?
Marser
2016-12-01 09:59:40 +08:00
写的挺详细的。。给楼主点赞~ 已收藏 ~
RihcardLu
2016-12-01 10:23:52 +08:00
@ctftemp 针对同一个站点,多个 worker 可以设置不同的范围,这样就避免重复了。
yanzixuan
2016-12-01 10:37:52 +08:00
感觉最大的问题是流量问题而不是语言的效率问题。如果是反爬措施牛逼的网站,只能通过降低访问的频率+换代理的解决。这就是流量最大的瓶颈。用 PHP 还是 python 的效率还是内存占用,在这个瓶颈面前几乎可以忽略不计。
python 的分布式爬虫可以用 supervisord 来管理的。
reuqests 听好用了的,最大的问题就是跟 gevent 目前搭配还不好。虽然作者写了例子教大家怎么玩。
或者用 genvent+urllib2 来玩高效率了
ctftemp
2016-12-01 10:45:44 +08:00
@RihcardLu 划分范围也是需要通信的。比如 worker1 抓到一个属于 worker2 范围的 url ,他需要传递给 worker2 。
gouchaoer
2016-12-01 11:11:14 +08:00
@mrzhao 有啥问题可以直接这里说或者到我博客下留言,我比较倾向于把问题放到大家都看的到底地方


@Clarencep 其实 dom 选择器捡个顺手的用就 ok 了,没啥区别。。。至于速度,驱动浏览器当然更慢,不过有一些技巧可以使之做到和 httpclient 速度差不多。。。这个我以后可能回分享一下自己的经验


@ctftemp 这种就是需要高度定制的地方了,比如有 url 作为区分的、有关键字作为区分的,把区分字段加上索引每次爬的时候去查一下看爬过没,这种比较简单粗暴,我目前有个长期爬虫库里 7kw 用这种方法也没啥问题。。。。。
eoo
2016-12-01 11:20:44 +08:00
要异步 直接上 node.js
sagaxu
2016-12-01 11:24:25 +08:00
@yanzixuan IP 池的确是个大问题,我们弄了几百个才勉强够用。除了网络资源外,真正的门槛是 APP 包的破解和验证码的破解,其它都是体力活。
yanzixuan
2016-12-01 11:35:49 +08:00
@gouchaoer url 搞得好不好都能看出一个人认真程度。比如遇到 302 的跳转,最终的 URL 不是最初的 URL ,这个时候就需要开发者来以最终的 URL 来定。
问题是,有工程师居然不检查这个然后说我们需要去重算法。这一点我 TM 都服了。
至于去重问题,可以通过 simhash 来玩。如 mongo 的时候加上 simhash 字段。
最后去重的时候,可以设置汉明距离在设置去重的尺度。最后基本上就能做到实时去重。
抛砖引玉,不知道有没有达人有更好的玩法。
towser
2016-12-01 11:38:58 +08:00
非常高质量的文章。我也分享几点:
1 、 Master 进程常驻的时候要注意内存占用和泄漏问题,及时 unset 一些没用的大变量
2 、 Selenium 用来应对如淘宝一类的登录模拟很好用,取到 cookie 后就可以结束了,这方面我用 Python 来做,只是有时会捕获一些奇怪的异常( ChromeDriver )
3 、 IO 密集的场景下异步的复杂度显然是低于多线程的,而且 curl_muti 系列函数的性能已经够用
4 、抽取 HTML 内容我用 XPath ,直接从 Chrome 开发者工具复制路径就可以用
5 、复杂验证码就交给打码平台,大把廉价劳动力日夜兼程
6 、 IP 不够可以先用爬虫扫一扫网上的免费代理,再不够就去租
7 、 35 L 提到了一些现在还不太好处理的问题, PHP 对爬虫集群的控制依赖于 Redis 确实比较粗糙,如果有别的思路可以交流交流
Felldeadbird
2016-12-01 11:44:00 +08:00
我也写了一个爬虫帮公司爬对手网站得信息。我没做楼主这么细。
我的方案比较简单:
CURL 做一个 模拟多线程请求。 将要爬的 URL 每一进程划分为 10 批次。
结合 linux cron 去 php-fpm 执行 脚本。
脚本确保每 10 分钟跑一次和强制结束。
Felldeadbird
2016-12-01 11:46:01 +08:00
这里应该线程: 将要爬的 URL 每一线程划分为 10 批次。 也就是每次运行爬 10 条 URL 。防止对手发现异常封 IP (当然,我做了动态的代理设置)。 10 分钟内 基本可以爬对手 100 个 URL 。基本 1 天时间内可以把 几个对手的内容都全爬了。
iRiven
2016-12-01 11:46:34 +08:00
很好很强势 但是 PHP 和其他语言不同的地方就是 PHP 开头要写<?PHP 什么时候才能去掉这个标签(-_-)
eoo
2016-12-01 13:34:22 +08:00
@iRiven 历史原因 必须要
zaishanfeng
2016-12-01 13:46:35 +08:00
爬虫的难点在于反爬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/324309

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX