php 的爬虫经验分享

2016-11-30 12:08:16 +08:00
 gouchaoer

最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫(上)

入职冰鉴科技做爬虫开发已经半年多了,陆续开发维护了几个爬虫以后终于在 web 端爬虫这一块有了登堂入室的感觉。中间踩了许多坑,也对爬虫的许多细节有了自己的认识,所以今天希望能分享一些爬虫经验。虽然爬虫的很多东西不好说太细,因为说太细了别人马上有针对性的反爬虫了,而且很多技巧业界没用通用的解决方案(别人就算做出来了也不太愿意分享),都是我自己慢慢摸索出来的。但是我认为适当的业界 /友商之间的技术交流是必要的,不能闭门造车,我也渴望能和业界 /友商有更多私下的深入交流,大家多切磋才能进步嘛。最近我在研究 app 反编译爬虫相关的,所以对这块特别感兴趣。个人博客: qsalg.com

为什么是 PHP

其实就目前业界来说, python 下的爬虫轮子是最多的,我厂大多数同学都用 python 搞爬虫。我由于原来搞 web 后端用 PHP 比较多,对 PHP 下的生态和第三方库啥的如数家珍,厂里对使用的语言也不做强制要求,所以我就用最拿手的 PHP 开搞了。有同学可能会觉得 PHP 下爬虫轮子似乎不多,甚至有部分做惯了 PHP 后台的同学在需要完成爬虫任务时也拿起了 python ,难道 PHP 就不适合搞爬虫么?我认为恰恰相反, PHP 在 web 领域积累了大量成熟的第三方库,而且其强大的内容处理能力使之在需要琐碎处理的爬虫任务中如鱼得水。爬虫从运行时间上大致可以分为两种: 1 、实时的爬虫:一个请求来了我就开一个爬虫去爬取结果,一般情况下这种爬虫直接对外提供 API ; 2 、长期爬虫:这种爬虫一般会一直运行或者定期运行,把数据更新入库。一般来说这 2 种爬虫都需要比较频繁的维护更新, PHP 作为一门部署简单的脚本语言,可以实施热更新爬虫代码,非常方便。

使用第三方库

用 PHP 搞爬虫请利用好 composer 下的第三方库。 PHP 在 web 领域积累了大量成熟的第三方库,基本上你想得到的库都能在 github 上都能找到,如果你不用第三方库的话,那么你就等于放弃了 PHP 在 web 领域的巨大优势。爬虫相关的 PHP 第三方库我用的比较多的有:

1 、 Guzzle :功能很完善的 httpclient ,带异步并发功能,别的脚本语言找不到这么好的 httpclient

2 、 Goutte :对 symfony 的 dom-crawler 和 css-selector 的简单封装,你也可以直接用 symfony 的 css-selector 来抽取 html 的 dom 元素

3 、 symfony/process : symfony 出品的 php 开进程的库(封装的 proc_open ),兼容 windows ,要知道 pcntl 扩展不支持 windows 的

4 、 php-webdriver : Facebook 官方维护的 selenium 的 php 客户端

前段时间有一个《我用爬虫一天时间“偷了”知乎一百万用户,只为证明 PHP 是世界上最好的语言》,这个 repo 很受关注也一直在维护。我也研究了一下他的代码,质量很高,但是有一个缺点就是没有使用现有的第三方库而选择自己封装。我们应该把精力花在爬虫业务上而不是去从新造轮子,我平时直接无脑的使用现有的 composer 下的各种第三方库。我从今年 4 月份入职到现在 8 个月时间只写了 3 个爬虫(除了爬虫业务外,基于 redis 的分布式爬虫调度、单机多爬虫并发、报警+监控+参数控制、 selenium 多浏览器匹配+特性定制、代理策略定制 and so on )一套下来,所有代码都加起来只有 6000 行 PHP 代码。已经有现成的成熟稳定的第三方库不用,自己造轮子是得不偿失的。

多线程、多进程和异步

爬虫不能不说到并发,爬虫作为一个 IO 密集型而不是 CPU 密集型的任务,一个好的并发的爬虫应该满足: 1 、尽量可能高的下载带宽(下载带宽越高,爬的数据越多); 2 、尽可能小的 CPU 消耗和尽可能小的内存消耗。 多线程似乎是实现并发的不错的方式,经常有人说“ PHP 没有多线程”让广大 PHPer 直不起腰。作为 web 后端的时候 PHP 没法使用多线程,但是作为命令行运行的话 PHP 是支持多线程的。我们知道 PHP 分为线程安全( ZTS )和非线程安全版本( NTS ),后者其实是为了兼容 win 下 IIS 的 ISAPI ,这也就逼着 PHP 下的扩展基本上都提供的线程安全和非线程安全版本。也就是说从理论上来说命令行的 PHP 多线程是真的多线程,没有像 py 或者 ruby 那样的全局锁(实际上同一时刻只有一个线程在跑),但是实际上 PHP 命令行多线程不太稳定(毕竟它的多线程不是为 php-cli 设计的),所以我建议命令行应用还是使用多进程来做并发。 而异步也是实现并发的重要方法,爬虫需要并发的大多数情况是我想是同时去爬多个 url ,这种情况无须使用多进程 /多线程,直接在单进程中使用异步就可以了。比如 PHP 的 Guzzle 异步支持非常好用, Guzzle 默认异步是包装的 curl 的 curl_multi 的几个函数来做的,如果你想用性能更好的异步事件库可以设置 Guzzle 的 adapter 为 react-guzzle-psr7 (当然了你得安装 Event 之类的异步 pecl 扩展)。我个人试用下来觉得 Guzzle 默认的异步就够用了,单进程并发几十上百的 http 请求跑满小水管那是不成问题的, cpu 和内存消耗还很小。总之,把 php 的多进程和异步合起来用,实现良好的并发不是问题。

关于爬虫框架

开箱即用封装好的爬虫框架不是银弹。我一开始也研究了 java 和 py 下的一些比较著名的框架,企图先把这些框架学会然后把自己的爬虫任务整合进去,后来发现这么做很困难。诚然用爬虫框架基本上改两行就可以跑起来了,对简单的爬虫任务来说很不错。但是用别人封装好的框架会导致爬虫的定制性变差(要知道爬虫是需要灵活处理各种情况的),而我们知道爬虫的本质就是开着 httpclient 取回 html 然后 dom 抽取数据就完了(并发的话再加个多进程管理),就这么简单的任务为了尽可能满足所有人需要被封装成了一个复杂系统的框架,并不一定适合所有的情况。有一次 V2EX 上也有人出来质疑说我直接用 requests 也很简单啊, scrapy 的优势在哪里呢?我的理解是爬虫框架的优势就在于把爬虫的并发调度都做了,而我们直接单进程来写爬虫的话只能是一个单进程爬虫没有并发调度。其实爬虫的多进程并发调度没那么复杂,也不需要搞太复杂,我说说我的 php 爬虫是怎么做并发调度的( python 下一回事)。

爬虫多进程调度

我的 PHP 爬虫多进程调度比较简单粗暴,爬虫分为管理爬虫进程的 Master 进程和负责具体爬取业务的 worker 进程,而 redis 负责对爬虫进行控制以及显示爬虫的状态。

比如我有一个爬取 A 站点的爬虫任务,我开发好爬虫 Worker A 以后,我可以在 redis 中设置在服务器 Node1 上我开 2 个 Worker A 来爬,而 Node1 上的 master1 进程会定期去 redis 中读取控制参数,如果发现 Node1 上的 Worker A 进程不足 2 个的话就会新开 Worker A 进程补充。当然了,控制参数需要包含哪些你可以自己定制,比如我就定制了每个节点的 Worker 上限、使用的代理策略、是否禁止加载图片、浏览器特性定制等等。 Master 进程新开 Worker 进程有 2 种方式,一种是通过类 exec (比如在 Master 进程中 proc_open(‘ php Worker.php balabala ’, $descriptorspec, $pipes)这样)调用来开一个新的命令行 php 的 Worker 进程,另外就是通过 fork 机制来做。我采用了类 exec 调用的方法(其实是 symfony/process 库,它封装的 proc_open 函数来开的进程)来开 Worker 进程(如果要传命令行参数给 Worker 进程注意使用 base64 编码一下,因为命令行可能会过滤某些参数),这么做的好处就是解耦。需要注意的是,现在 Worker 进程都是 Master 进程的子进程,所以 Master 进程退出的话所有 Worker 进程也会退出,所以 Master 进程注意异常的 catch ,尤其是 redis 、数据库和别的有网络 io 的地方。如果你希望 Worker 进程 damonize 的话请按这篇文章的方法来( php 下也是一样的,不过不兼容 windows )。 我不建议 Master 进程通过 IPC 机制对 Worker 进程进行控制,因为这么做一下子就让 Master 进程和 Worker 进程耦合起来了, Master 进程应该只是简单的负责开 Worker 进程而已。对 Worker 进程的控制可以通过 Redis 来完成,也就是说 Worker 进程每隔一段时间(可以是完成了一次 http 请求,或者每隔几秒)可以去 Redis 读一次控制参数(如果需要的话,也可以到汇报一下自己状态,参数比较多的话用好 redis 的 pipeline ),在实践中这种方法工作的很好。 我的 PHP 爬虫中都采用了这个简单粗暴的方案,我认为它的好处有 4 个:

1 、支持分布式且依赖简单,参数控制+状态汇报直接通过单一的 redis 节点。我推荐你用一个好的 redis 的 GUI 工具来管理 redis , redis 的 5 种数据结构用来做爬虫参数控制+爬虫状态显示非常方便

2 、 Master 进程和 Worker 进程解耦,而且可以解决爬虫较多发生的内存泄漏问题( Worker 进程跑完直接退出),也可以热更新代码

3 、实时爬虫可以通过 Master 进程抢占 push 到 redis list 中的请求来做,而长期任务的爬虫在 Worker 进程意外退出后 Master 进程立刻补充,能适应各种爬虫任务

4 、开发爬虫只用去写 Worker 进程就 ok 了,开发方便,不用关心调度问题

缺点当然就是这一套机制都需要你自己写,高度可定制性的代价就是自己动手。

总结

把我的 PHP 下爬虫经验的几个方面拿出来讲了一下,由于篇幅有限 Selenium 相关的经验就留到下次再说了。

以上

28863 次点击
所在节点    PHP
75 条回复
changwei
2016-11-30 15:35:26 +08:00
对了,还有就是我现在写的爬虫大多数都是这种需求,就是有一个获取 list 的接口(文章列表),先去这个接口获取一批 id ,再去一个通过 id 获取详情的接口(文章内容)来获取具体要抓取的数据。

我现在在 python 下是用 threading 和 queue 队列来实现的抓取,请问 php 下是如何做类似需求呢?
gouchaoer
2016-11-30 15:47:15 +08:00
@changwei 为了服务于 php-cli 的多线程吧,毕竟多线程支持都做了……一般大家都选 NTS ,没有多线程支持的性能要好点

至于 java ,你要知道它是一门工业级的静态类型语言, jvm 是非常强大的 runtime ,原生支持多线程是必然的。 php 整个版本区分是因为 ZTS 版本性能更低,为了性能。。。

python 的多线程。。。我用 py 不是很多。。。。


@changwei 其实爬虫的难点在于别人反爬虫,具体去爬的业务没啥难度也没啥好说的。。。你的这个需求 php 下单进程异步应该可以吧? http://docs.guzzlephp.org/en/latest/quickstart.html#concurrent-requests
你对并发感兴趣的话我有 2 篇博客你可以参考一下,写的比较乱:
http://qsalg.com/?p=423
http://blog.icekredit.com/?p=40
ylsc633
2016-11-30 16:40:40 +08:00
恩! 文章很赞! 最近正有想法 想研究研究这个!

楼上也有提出 PHPquery 的 有用过.. snoopy 也用过! 还有 github 上的这个 https://doc.querylist.cc/site/index/doc/9

都用过,不过不是很适合自己!

一旦遇到验证码 我就懵逼了...

甚至 模拟登陆都有点坑....

膜拜楼主
cenxun
2016-11-30 16:51:17 +08:00
关注下,关于多进程执行调度可以看看 resque 库
Dlad
2016-11-30 17:10:34 +08:00
我也写过一个基于 perl 语言的多线程爬虫框架,一直没有机会跟大家讨论。<br />
地址: https://github.com/qdladoooo/b2c_crawler <br />
我把抓取过程分为四个阶段:网址入库,抓取,解析,数据入库。其中 1 、 3 步需要根据情况编码。<br />
多线程分为两级,第一级在 DB ,每个线程领取任务,更新状态,完成任务;第二级在运行时的代码,维护一个地址池,是个”生产者-消费者“模型。<br />
<br />
我觉得组织一个通用的“用户级”的框架是很难的,所谓爬虫框架都是 coder 级的产品。
sagaxu
2016-11-30 17:11:09 +08:00
针对 4 个 php 第三方库,可能
1. python 的 requests 库封装的非常好
2. beautifulsoup 和 lxml 也非常好
3. python 标准库的 multiprocessing 和 threading 很好用
4. python 是 selenium 官方支持的 5 种语言之一

我用 15 寸球面 CRT 也能写代码,然后对外宣称
最好的显示器 15 寸 CRT + 最好的 cherry 键盘 = 最好的开发设备
gouchaoer
2016-11-30 17:21:30 +08:00
@cenxun resque 的代码我研究过,我没有用的原因还是过度封装,直接用 redis list 的 blocking pop 足够了
gouchaoer
2016-11-30 17:39:03 +08:00
@sagaxu httpclient 中非常重要的异步并发请求功能 requests 没有, py 的几个支持异步的 httpclient 都不太好用(我们这边有个 py 爬虫需要异步并发,我研究了一段时间的这个东西)。。。

至于 selenium 客户端,用啥语言都差不多, py 调用浏览器不需要单独开一个命令行的 stand-alone 的 java 的 selenium 服务端这点比较方便。。。。 php 需要单独开一个命令行的 stand alone 。。。不过论代码质量, facebook 的 client 质量不错,很强调强类型,不过没有文档需要自己去看源码。。。。

说 php 是最好的语言只是想起个比较吸引眼球的题目而已, php 的优缺点和 py 的优缺点场景不一样的话体现也不一样,其实最好的语言就是你最熟悉的。

我喜欢 windows ,喜欢 eclipse ,讨厌 vim ,对屏幕 /键盘完全无所谓。。。。
cenxun
2016-11-30 17:39:51 +08:00
@gouchaoer 哈哈~,确实有点
sagaxu
2016-11-30 18:20:43 +08:00
@gouchaoer 爬虫这种 IO 密集型的工作,用多线程再合适不过了,如果实在想要异步, requests 的作者还写了个 grequests ,本质上是用 gevent 打的鸡血补丁。
gouchaoer
2016-11-30 18:26:32 +08:00
@sagaxu IO 密集型的工作用异步是常识啊……
grequests 我之前就研究过,你去读读它的只有 150 行的源代码, https://github.com/kennethreitz/grequests ,质量如何以及这个 httpclient 好不好用,我觉得和它那么多的 star 不相配
sagaxu
2016-11-30 19:00:17 +08:00
@gouchaoer 常识不是先开个几百个线程试试吗?多线程扛不住的时候,也不该用脚本语言了。最次也要考虑用 Java 或者 Go ,研发团队够强就上 C++。
gouchaoer
2016-11-30 19:12:42 +08:00
@sagaxu 关于这个常识没啥好说的了……其实只要是按照异步(毕竟底层都用了各种差不多的事件库)来写各个语言的性能跑出来差别不会太大,而且也没必要迷信用静态类型语言,论异步的 http 性能,在某些场景下 php 都是可以打 Go 的:

韩天峰-Rango
11 月 7 日 10:17 来自 微博 weibo.com
PHP7+Swoole 的 http 服务器和 Go 的 Http 服务器,在我的电脑上进行基准测试, Swoole 的性能总是 Go 的 2 倍。
https://github.com/swoole/swoole-src/blob/master/benchmark/http.php
https://github.com/swoole/swoole-src/blob/master/benchmark/http.go

至于为啥不用静态类型写,我个人干活也是比较喜欢静态类型的,因为强类型写出来更鲁棒性能更好,用脚本语言纯粹是写起来快,尤其是爬虫这种全是内容处理+细节处理而且需要常常改的东西
sagaxu
2016-11-30 20:39:51 +08:00
@gouchaoer micro benchmark 性能确实差不太多,不过 swoole 并没有比 go 快,在 go1.6 和 php7+swoole 下面,并发 10 个的时候,两者性能差别在 1%左右,当并发提高到 1000 的时候, go 比 swoole 快不到 10%,换成 go1.7 ,比 swoole 快 10%。比 go 快 1 倍,是跟 go1.4 比的吗?用 C 扩展还跑不过没有一行 C 代码的 Go 。如果稍微加一点儿逻辑进去, php 自身慢一个数量级的缺陷就暴露了。
mrgeneral
2016-11-30 22:02:51 +08:00
本人也是 phper 。

楼主用的到轮子,我也折腾过,其实在请求、解析、清洗这个层面, php 和 python 都差不多,都有很好的轮子。

说到效率, python 可能还不如 php 。(忘记在哪里看到的非官方资料)

小规模的 PHP 都能支持,没啥大问题。但是规模大起来后,就尴尬了。

php 调度一直都没有一个很好的解决方案。楼主的也比较粗糙,我自己实现的是用队列+数据库,也没办法很好的解决失败重连、暂停继续等问题。

这个是个痛点,有机会可以一起折腾下,说不定就有惊喜了。
gouchaoer
2016-11-30 22:28:14 +08:00
@mrgeneral 我完全是为了满足厂里的业务需要,现在这样也够用了,其实单纯的怎么更好的爬数据不是我的工作的重点,我精力在于和反爬虫较量上面,这里面很多东西就不好说太细了。所以目前暂时没有折腾轮子的想法,感谢邀请。

至于说 php 的性能,在脚本语言里许多场景下下, php 数一数二的信心还是有的, php 本来就把性能和兼容看的很重: https://pages.zend.com/rs/zendtechnologies/images/PHP7-Performance%20Infographic.pdf
moell
2016-11-30 22:51:58 +08:00
好文,学到了很多,大赞
mrzhao
2016-11-30 22:57:32 +08:00
撸主,我只是听说过爬虫,能带我入门不? 而且我现在有一个相关的问题需要解决,能不能聊一下 @gouchaoer
Moker
2016-11-30 23:01:43 +08:00
最近做的业务也是跟爬虫有关,只是选择器用的是 phpquery ,觉得也是很不错,和 jq 语法基本一致,关于分布式和多进程的问题用的是 php-resque
huyi
2016-11-30 23:25:44 +08:00
表示 已经用 php 每天爬几 T 的数据了,哈哈,要想效率高,还是自己写框架比较好,好多第三方都不靠谱,例如 simple html dom

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/324309

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX