再次分享 pyspider 爬虫框架

2014-11-16 21:16:51 +08:00
 binux
虽然 252 天前已经分享过,但是第二个里程碑 commit 数已经快到第一个的 2 倍了。。
功能上丰富了非常多,甚至已经部分超过原来不开源的版本了。。
请允许我再次分享一次 pyspider

github 地址: https://github.com/binux/pyspider
demo 地址: http://demo.pyspider.org/ (感谢 @phoenixlzx

* python 脚本,可以用任何你喜欢的 html 解析包(内置 pyquery )
* WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
* 支持 MySQL, MongoDB, SQLite
* 支持抓取 JavaScript 的页面
* 组件可替换,支持单机 /分布式部署,支持 Docker 部署
* 强大的调度控制

由于功能太多,更多请参考: https://github.com/binux/pyspider/wiki
pycon 上的 slide: http://www.slideshare.net/roybinux/pyspider-pycon2014beijing

40190 次点击
所在节点    分享创造
96 条回复
kslr
2014-11-17 08:42:33 +08:00
里面好多我想要的东西,开始拆 T_T
forever139
2014-11-17 09:05:55 +08:00
@binux 第一次分享出来的时候,就拉到本地测试过,环境啥的都好了,就是页面没反应,然后搞了几个月的scrapy,这次再试试。
binux
2014-11-17 09:33:06 +08:00
@benjiam pyspider 不是通用爬虫啊,你要是想知道通用爬虫怎么解决,来百度我告诉你:)

@forever139 开个ISSUE啊。。ISSUE对项目帮助很大的。。
Jaycee
2014-11-17 09:37:53 +08:00
赞。。。
xujialiang
2014-11-17 09:42:49 +08:00
不得不说!!!好东西啊!!!!!!!
zyx89513
2014-11-17 09:51:17 +08:00
我用过 Portia, 请问和Portia比有哪些不同呢?
laike9m
2014-11-17 09:56:50 +08:00
其实你该申请主题演讲的。。
s12348765
2014-11-17 09:58:08 +08:00
收藏下。。。
sohoer
2014-11-17 10:22:10 +08:00
看到爬虫我就来劲!呵呵!不错
binux
2014-11-17 10:36:29 +08:00
@zyx89513
没用过 Portia,看介绍,感觉不是一层的东西,Portia 更像一个规则配置器,下层还是跑的 scrapy。
规则上,还是 http://blog.binux.me/2014/07/how-to-extract-data-from-web/ 里面,“xpath / css选择器 / 正则表达式” 这一层的东西,只是用表单简化配置罢了。

pyspider 虽然也有 自动生成css选择器的辅助工具,但是为了灵活性,或者说,还没有做这一层。
yakczh
2014-11-17 11:38:15 +08:00
-r requirements.txt
这里面内容是啥?
binux
2014-11-17 11:39:24 +08:00
@laike9m 我觉得介绍一个东西,10分钟提起听讲者兴趣就好了。。又不是经验分享,需要把问题说清楚。。
binux
2014-11-17 11:39:37 +08:00
@yakczh 依赖包
laike9m
2014-11-17 11:43:30 +08:00
@binux 也对
glongzh
2014-11-17 11:48:36 +08:00
上HN了,赞一下!
yakczh
2014-11-17 11:51:56 +08:00
http://localhost:5000/debug 这是python的在线编辑器? 通过后台 修改python代码,这个怎么调试呢?
binux
2014-11-17 12:21:40 +08:00
@yakczh 后台修改的是pyspider的组件代码?
shoumu
2014-11-17 12:39:06 +08:00
能不能更多地分享一些那两个抽取demo的内容
binux
2014-11-17 12:43:00 +08:00
@shoumu 你是指how,还是指demo的数据?
jprovim
2014-11-17 13:19:17 +08:00
@binux 恭喜,上HN頭條了.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/147008

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX