爬虫爬到 90%的数据以后,超时了。。

2016-09-14 15:35:37 +08:00
 redhatping
顿时傻掉了, 这个如何中途保存呢。。 方便下次爬呢。 只会 urllib,beautifulsoup4 , 我知道 有个断点续爬, 但是这个东西怎么弄, 求个迎门砖。
3532 次点击
所在节点    Python
6 条回复
Karblue
2016-09-14 17:47:00 +08:00
把爬的深度和连接记下来啊.下次直接开始从这里爬.
web88518
2016-09-14 19:05:34 +08:00
我也是新手,也遇到过不知道怎么处理好,没看到这样的实倒,
haozibi
2016-09-14 19:15:42 +08:00
在数据库设计一个表,存放当前爬取的位置,或者没爬取 100 次保存一下数据
practicer
2016-09-14 23:58:55 +08:00
seen = []
todo = []

1 将带爬的 url 全部添加到 todo
2 每爬过一个 url 时(或在 ConnectionError 抛出时)在循环体的末尾将 url 添加到 seen
3 再从 todo 删除这个 url

所以断了下次再从 todo 里接着爬就行了
JamesMackerel
2016-09-15 11:54:44 +08:00
布隆过滤器?
makeapp
2016-09-16 12:04:05 +08:00
维护一个几个队列,用来存放增量爬取的数据

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/306220

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX