手把手教你写爬虫第七弹--pyspider 之 AJAX 和 HTTP 简单讲解

2015-06-17 16:48:34 +08:00
 jason52
先给链接 :

http://haoqicat.com/jason52/shou-ba-shou-jiao-ni-xie-python-pa-chong/8

相当于是第三弹和第四弹的pyspider改写,建议先了解一下第三弹和第四弹

大家也可以直接跑到虫叔自己的服务器上去做demo测试 http://demo.pyspider.org/

不过感觉人多了会被封吧,虫叔不要打我~



==

之前爬虫系列 介绍 http://v2ex.com/t/177020

视频都在 http://haoqicat.com/jason52/shou-ba-shou-jiao-ni-xie-python-pa-chong
5004 次点击
所在节点    分享创造
10 条回复
shuimugan
2015-06-17 20:44:15 +08:00
感谢楼主分享,最近也在用pyspider,有几个问题想快速了解一下,看到楼主走得比较前,不知道楼主能不能答疑...
1.怎么样直接从命令行启动自己的脚本,不需要通过默认的web ui启动 ( 想方便调试)
2.在web ui 保存的脚本 保存在什么路径下
3.pyspider 有没有现成的分布式爬虫方案...

之前也有了解过scrapy ,无奈是2.x版本的,不想去碰烦人编码...想找个方便点的轮子
jason52
2015-06-17 20:55:55 +08:00
有webdav方案,不过我还没研究过
binux
2015-06-17 21:31:39 +08:00
@shuimugan
1、你确定没有 webui,看不到抓回来的页面会方便调试?如果你非得要,有 webdav 和 one 模式
2、保存在数据库中
3、pyspider 本来就是分布式爬虫方案,看文档
shuimugan
2015-06-17 22:14:40 +08:00
@binux 竟然是作者亲自回复,有点受宠若惊的感觉
至于调试,php用得多了,习惯打印+die的方式中断来看了,对于web ui的方式的确有点不适应
pyspider到现在也用了2天,文档还没刷透,现在再去拜读下~
Moker
2015-06-19 22:52:02 +08:00
发现这网站视频 经常会播放不了.....
imlonghao
2015-06-20 08:16:46 +08:00
我觉得,如果对于一个页面有多个结果的话,我习惯用
self.send_message()
来分开结果
Moker
2015-06-20 10:55:50 +08:00
对了,请教个问题....如果我想没半个小时重新对现有结果重新抓取
@every(minutes=30 * 1)
def on_start(self):

@config(age=30)
def index_page(self, response):

@config(priority=2)

发现这样的确是半小时会重新抓取,但不会重新存储结果
LWXYFER
2015-06-20 14:18:08 +08:00
吼吼
hdbean
2015-06-23 09:22:56 +08:00
谢谢分享
gutianyun
2016-06-26 22:28:36 +08:00
找不到资源了,请再次分享

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/199297

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX