手把手教你写爬虫第七弹--pyspider 之 AJAX 和 HTTP 简单讲解

先给链接：

http://haoqicat.com/jason52/shou-ba-shou-jiao-ni-xie-python-pa-chong/8

相当于是第三弹和第四弹的pyspider改写，建议先了解一下第三弹和第四弹

大家也可以直接跑到虫叔自己的服务器上去做demo测试 http://demo.pyspider.org/

不过感觉人多了会被封吧，虫叔不要打我~

==

之前爬虫系列介绍 http://v2ex.com/t/177020

视频都在 http://haoqicat.com/jason52/shou-ba-shou-jiao-ni-xie-python-pa-chong

shuimugan

2015-06-17 20:44:15 +08:00

感谢楼主分享,最近也在用pyspider,有几个问题想快速了解一下,看到楼主走得比较前,不知道楼主能不能答疑...
1.怎么样直接从命令行启动自己的脚本,不需要通过默认的web ui启动 ( 想方便调试)
2.在web ui 保存的脚本保存在什么路径下
3.pyspider 有没有现成的分布式爬虫方案...

之前也有了解过scrapy ,无奈是2.x版本的,不想去碰烦人编码...想找个方便点的轮子

jason52

2015-06-17 20:55:55 +08:00

有webdav方案，不过我还没研究过

binux

2015-06-17 21:31:39 +08:00

@shuimugan
1、你确定没有 webui，看不到抓回来的页面会方便调试？如果你非得要，有 webdav 和 one 模式
2、保存在数据库中
3、pyspider 本来就是分布式爬虫方案，看文档

shuimugan

2015-06-17 22:14:40 +08:00

@binux 竟然是作者亲自回复,有点受宠若惊的感觉
至于调试,php用得多了,习惯打印+die的方式中断来看了,对于web ui的方式的确有点不适应
pyspider到现在也用了2天,文档还没刷透,现在再去拜读下~

Moker

2015-06-19 22:52:02 +08:00

发现这网站视频经常会播放不了.....

imlonghao

2015-06-20 08:16:46 +08:00

我觉得，如果对于一个页面有多个结果的话，我习惯用
self.send_message()
来分开结果

Moker

2015-06-20 10:55:50 +08:00

对了，请教个问题....如果我想没半个小时重新对现有结果重新抓取
@every(minutes=30 * 1)
def on_start(self):

@config(age=30)
def index_page(self, response):

@config(priority=2)

发现这样的确是半小时会重新抓取，但不会重新存储结果

LWXYFER

2015-06-20 14:18:08 +08:00

吼吼

hdbean

2015-06-23 09:22:56 +08:00

谢谢分享

gutianyun

2016-06-26 22:28:36 +08:00

找不到资源了，请再次分享

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/199297

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.