感觉目前很多人提到爬虫首先想到 Python 应该是一种刻板印象吧。其实 PHP 也可以写出很好用的爬虫。而且如果你是以在有限的时间内开发出更好用的爬虫为目的的话,使用自己擅长的语言是再好不过的(以学习为目的的话就另当别论了)。
于是就有了 XCrawler 这个项目。
跟其他已有的 PHP 爬虫框架相比,XCrawler 的一个主要区别是,在核心组件上基于已有的成熟组件: Guzzle 和 Symfony 的 DomCrawler。并尽可能在满足常用爬虫功能(多线程 /失败重试 /进度日志 /Dom 解析等..)的前提下保持简单。
0.1 版本(首个版本)发布的时候,当时是基于一个框架做的。所以使用的时候只能单独作为一个项目去写。使用起来不是很方便。
这次的主要改进是封装成了一个 composer 包。 所以你可以把 xcrawler 在任何自己喜欢的框架或已有的项目中使用。
GitHub 地址: https://github.com/yan68/xcrawler
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.