如何优雅的用 scrapy 去抓取连续页面？

2016-03-25 14:55:30 +08:00

Shazoo

举个例子，某个社区的 member 的 profile 页。 url 形如：

http://abc.com/profile/show?id=1

id 大概是 1~2000

这个用 curl 都可以比较轻松的连续抓下来。但是在 scrapy 的框架里面，有点糊涂。

难道就是修改里面的 start_urls ，弄一个 url 列表吗？

优雅，给点优雅的方法哈。

5859 次点击

所在节点

Python

21 条回复

Jackhuang

2016-04-01 01:41:26 +08:00

看见楼主题目其实有点想问一个问题， scrapy 是异步的，但是有时候任务好像是同步阻塞的，应该怎么优雅？比如前几天抓知乎是这么设计的，列表得到问题 url ，然后放到池子里，具体一个问题下面有很多答案，我觉得这个时候应该同步把这个问题下面的所有答案得到。然后 yield 一个问题 item 。不知道对不对？

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/266309

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.