爬虫平台 Crawlab v0.2.2 发布

2019-05-30 15:43:54 +08:00
 tikazyq

Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。

对 Crawlab 还不了解的童鞋,请移步之前的文章:

分布式调度系统

Crawlab 的任务调度核心模块基于 Celery,因此天然支持分布式爬虫、多节点抓取。

自定义爬虫

Crawlab 的自定义爬虫可兼容任何语言以及任何框架。从目前开源的框架来看,大部分爬虫平台是以 scrapyd 为核心,因此只能支持 scrapy 框架的爬虫,而 Crawlab 不仅支持 scrapy,还支持其他框架的爬虫。

可配置爬虫

Crawlab 在版本v0.2.1中新增了可配置爬虫功能,用户通过配置爬虫的抓取规则,不用写任何代码,就可以在 1-3 分钟内开发好一个集下载、解析、存储一体的常规爬虫。

自动提取匹配规则

v0.2.2中,加入了自动提取列表字段规则,让用户能够一键提取匹配的列表字段,开发时间进一步降低到半分钟以内。因此 Crawlab 正在朝真正的“一键抓取”的目标迈进。

更新一览

v0.2.2

v0.2.1

v0.2

待开发

截屏

可配置爬虫(添加)

可配置爬虫(配置)

可配置爬虫(预览)

网站列表

Github: tikazyq/crawlab

如果您觉得 Crawlab 对您的日常开发或公司有帮助,请加作者微信拉入开发交流群,大家一起交流关于 Crawlab 的使用和开发。

1612 次点击
所在节点    Python
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/569147

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX