scrapy 怎么设置爬虫跳到下一个 start_url？

2015-12-18 18:16:40 +08:00

ningyu

我现在是每个网站一个 start_url ，一个网站爬 1000(举个例子)个页面之后就跳到下一个网站进行爬取，
宁雨 2015/12/18 18:04:40
这种效果应该怎么实现？

我试了一种方法，就是在爬取量达到 1000 个页面之后就把这个网站的域名从 allowed_domain 中去掉，这样的效果是爬虫依然从这个网站上爬取就是会把这个网站的 url 全部忽略，有没有有经验的同学指点一下

3031 次点击

所在节点

Python

3 条回复

fangdingjun

2015-12-18 18:26:53 +08:00

设定一个条件，当条件为 True 时
yield scrapy.Request

ningyu

2015-12-18 18:31:05 +08:00

@fangdingjun 能具体点吗，是在 parse_url 里面 yield ？

fangdingjun

2015-12-19 10:13:32 +08:00

在 scrapy 的回调函数里停止返回 scrapy.Request 对象, scrapy 就会停止抓取
你只需要在每次返回 scrapy.Request 时计数，在计数到达 1000 后停止返回 Request 即可

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/244531

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.