python 3 种爬取方式对比

2016-02-29 11:00:41 +08:00
 alexbaba
地址 : https://github.com/daxia4444/djangospider

提供了 3 种抓取页面的方式:
( 1 )多线程下载。
( 2 ) tornado 异步下载
( 3 ) twisted 异步下载

只是一个雏型。希望以后能改进,这是个轻型的框架,代码非常少,可以很容易明白异步抓取和多线程抓取的方式,让后 custom 你自己的需求。
2642 次点击
所在节点    Python
4 条回复
edwardlol
2016-02-29 13:14:18 +08:00
...it has a few code
you can easily understand how to use ...
gaotongfei
2016-02-29 13:35:43 +08:00
@edwardlol 我也想吐槽这句话的。。。
shakespaces
2016-02-29 21:24:23 +08:00
已 star
alexbaba
2016-02-29 22:51:40 +08:00
不好意思,目前还有很多地方需要修改,希望有 hack 来一起完善这个框架,以后会加入分布式的功能,目前打算用 Django 的 Molde 作为数据库接口。打算用虚拟机启动几个 ubuntu 来作为 exmaple 分布式。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/259807

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX