网页定时爬取的问题

2014-09-09 16:07:31 +08:00
 Comdex
请教一下大家,假如我要做一个功能让别人输入一个网址和关键词,然后抓取关键词的数据,由于这些网页可能是不定时更新的,那自己写的爬虫该如何采取策略定时抓取更新?假设有多个用户要定时抓取更新的数据,这些数据一般一天更新一次,我是在用户每确定一个任务就开启一条线程每隔一天监控网页是否更新还是先把这些任务加入一个任务列表等到晚上某个时段定时器触发一并完成这些任务?
2730 次点击
所在节点    问与答
5 条回复
icedx
2014-09-09 18:17:16 +08:00
先把这些任务加入一个任务列表等到晚上某个时段定时器触发一并完成这些任务
Comdex
2014-09-09 23:28:18 +08:00
@icedx 这样效率更高?就是在定时器触发时开启多线程处理任务列表中的任务这样效率更好?这样当任务多时同时执行压力不会很大么?
icedx
2014-09-10 10:58:19 +08:00
@Comdex
你这不是大的项目 基本不用担心服务器压力
反而是定时器更方便管理
Comdex
2014-09-10 11:46:00 +08:00
@icedx 主要是担心cpu占用爆升导致机器重启锁定
icedx
2014-09-10 19:00:44 +08:00
@Comdex 你试试不就知道

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/132484

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX