开源一个 python 脚本驱动的定向爬虫

2014-03-09 16:53:56 +08:00
 binux
python爬虫绝大多数都是定向抓取,并进行一定程度的结构化解析

这套爬虫设计采用python脚本驱动抓取动作,适用于各类页面(要实现通用爬虫也没问题)
经过实践证明好用的更新调度机制,以及灵活稳定的抓取环模型
辅以 WEB 化的脚本编写、调试、监控,看图你就懂了:



这套爬虫是我一年多前设计开发的,抓取200个站点,在至少2个商业环境中运行,现在在Apache协议下重写开源。希望能终结各种自己写python爬虫的必要。

github项目: https://github.com/binux/pyspider
快速开始: https://github.com/binux/pyspider/wiki/Quickstart
其他更详细的文档: https://github.com/binux/pyspider/wiki
16351 次点击
所在节点    分享创造
55 条回复
yanwen
2014-03-09 17:00:19 +08:00
支持一个。
alexapollo
2014-03-09 17:09:20 +08:00
看起来还不错~
hhrmatata
2014-03-09 17:09:54 +08:00
有web调试和监控,看起来很不错
arbipher
2014-03-09 17:14:37 +08:00
赞!
抓取200个站点,求加到wiki上。
hadoop
2014-03-09 17:48:11 +08:00
赞!
9hills
2014-03-09 18:03:47 +08:00
支持一下
binux
2014-03-09 18:49:44 +08:00
@arbipher 以前的脚本放出来不好。。而且不兼容了
arbipher
2014-03-09 19:04:21 +08:00
@binux 说的也是,但是就这个是比较恶心的地方。。。
exoticknight
2014-03-09 19:09:19 +08:00
其实是终结各种我们大家写python爬虫的必要……
RIcter
2014-03-09 19:42:56 +08:00
请手下我的膝盖...已感谢
figo
2014-03-09 20:08:15 +08:00
看起来不错
chon
2014-03-09 20:35:31 +08:00
从BYR论坛过来支持一下~
moroumo
2014-03-09 20:40:43 +08:00
支持啊,我也用scrapy写过一个简单的
caomu
2014-03-10 00:08:13 +08:00
手机上手动回复点赞加马克。。。
forever139
2014-03-10 08:57:26 +08:00
支持下
lj0014
2014-03-10 10:27:41 +08:00
自带webui非常不错
nealv2ex
2014-03-10 11:32:37 +08:00
看了一上午了,我的python果真是战5渣。
spritevan
2014-03-10 11:36:52 +08:00
这个 webui 好丑啊
binux
2014-03-10 11:38:00 +08:00
@spritevan 帮我改啊
spritevan
2014-03-10 11:41:08 +08:00
只会说不会改啊 (^ω^)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/103525

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX