Python 多线程爬虫停止条件

2018-03-16 17:14:29 +08:00

wyy

多线程爬虫，如何在特定的深度让线程停止呢？
每个线程目前爬取页面后，还会从页面中抓取新的 url 入队

3050 次点击

所在节点

8 条回复

scriptB0y

2018-03-16 17:24:30 +08:00

可以每次开新的线程的时候传入一个变量并+1，记录当前的深度，达到一个阈值就不要再开新的线程。

wyy

2018-03-16 17:34:13 +08:00

@scriptB0y 如果我抓 2 层，那就是抓主页里的所有 url，然后这些 url 页面里的 url 再取出来抓下来，这个过程中 url 不断入队，我如何判断在什么地方停止呢？

sunchen

2018-03-16 17:40:27 +08:00

downloder 接受 url 参数时顺便传入这个 url 的深度啊，downloader 吐 response 的时候把这个参数吐出来再

wyy

2018-03-16 17:51:06 +08:00

@sunchen 谢谢~刚想到了您的这种解决方案。python 里如果想效率高一些，url 去重用 url 做 md5 hash 放到 set 里； url 存储用什么方式呢？

sunchen

2018-03-16 17:55:17 +08:00

@wyy 数量少 md5 之类的都行，数量很多可以用 bloomfilter

wyy

2018-03-16 18:01:14 +08:00

@sunchen 谢谢

lynskylate

2018-03-16 22:56:32 +08:00

维护一个 tasks 队列,tasks 队列存 task 类，深度，url，解析规则存在 task 里，
再维护一个线程池，线程池只从 tasks 中取 task，执行 task。

wyy

2018-03-17 13:14:05 +08:00

@lynskylate task 是一个线程池，深度和 url 存在 task 里是什么意思

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.