scrapy 怎么设置爬虫跳到下一个 start_url?

2015-12-18 18:16:40 +08:00
 ningyu
我现在是每个网站一个 start_url ,一个网站爬 1000(举个例子)个页面之后就跳到下一个网站进行爬取,
宁雨 2015/12/18 18:04:40
这种效果应该怎么实现?

我试了一种方法,就是在爬取量达到 1000 个页面之后就把这个网站的域名从 allowed_domain 中去掉,这样的效果是爬虫依然从这个网站上爬取就是会把这个网站的 url 全部忽略,有没有有经验的同学指点一下
3031 次点击
所在节点    Python
3 条回复
fangdingjun
2015-12-18 18:26:53 +08:00
设定一个条件,当条件为 True 时
yield scrapy.Request
ningyu
2015-12-18 18:31:05 +08:00
@fangdingjun 能具体点吗,是在 parse_url 里面 yield ?
fangdingjun
2015-12-19 10:13:32 +08:00
在 scrapy 的回调函数里停止返回 scrapy.Request 对象, scrapy 就会停止抓取
你只需要在每次返回 scrapy.Request 时计数,在计数到达 1000 后停止返回 Request 即可

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/244531

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX