如何优雅的用 scrapy 去抓取连续页面?

2016-03-25 14:55:30 +08:00
 Shazoo
举个例子,某个社区的 member 的 profile 页。 url 形如:

http://abc.com/profile/show?id=1

id 大概是 1~2000

这个用 curl 都可以比较轻松的连续抓下来。但是在 scrapy 的框架里面,有点糊涂。

难道就是修改里面的 start_urls ,弄一个 url 列表吗?


优雅,给点优雅的方法哈。
5859 次点击
所在节点    Python
21 条回复
Jackhuang
2016-04-01 01:41:26 +08:00
看见楼主题目其实有点想问一个问题, scrapy 是异步的,但是有时候任务好像是同步阻塞的,应该怎么优雅?比如前几天抓知乎是这么设计的,列表得到问题 url ,然后放到池子里,具体一个问题下面有很多答案,我觉得这个时候应该同步把这个问题下面的所有答案得到。然后 yield 一个问题 item 。不知道对不对?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/266309

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX