断点续传是这样的思路吗?

2017-01-15 20:04:23 +08:00
 omg21
我有一批不同网站的页面需要下载,从数据表里挨个取出来处理,有可能会有错误出现,用 try 也只是挑几个主要的可能出错的地方,网页数据千站千面,肯定会出错,如果要实现断点续传,是不是每处理完一个页面就标记一下?比方说建一个临时表,里面放数据表的记录 ID 号,处理完一条把该表记录 update 下,出错后再回再执行就从这个临时表里取 ID ,从这里开始执行。
3257 次点击
所在节点    Python
5 条回复
loveyu
2017-01-15 21:44:38 +08:00
就是这样的没啥毛病,除了队列就是这样一直循环取未标记的
omg21
2017-01-15 21:48:11 +08:00
@loveyu 好吧,知道了
k9982874
2017-01-15 21:54:45 +08:00
矫情一下 这不是断点续传 这是批量下载
crab
2017-01-15 22:59:58 +08:00
你描述的这个和断点没关吧。断点续传同一文件,如 RANGE 协议,分块取回这样。
LancerXin
2017-01-16 10:49:38 +08:00
你这是在写爬虫吧 和断点续传有啥关系....

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/334754

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX