需长期 python 爬虫兼职

2014-12-19 10:07:08 +08:00
 rubylove
针对类似如下网站,http://app.zjepb.gov.cn:8089/nbjcsj/
1. 按照规定的数据库表的格式,将基础数据和每小时的实时数据内容爬取下来存入数据库,其中初始阶段应将所有可能的历史数据保存。
算法要求:
1,从之前向现在的时间取爬取,这样如果因为网络等原因断开后,再次开始时,能自动从更早的时间点开始爬取。
2. 如果超时,至少要有3次重试。再超时,或者发生错误时,能发送邮件给指定人。
3. 性能:内存不能超过300M, CPU使用率不能超过30%,数据库链接数需控制在5个以内。
4. 数据库:已设计好,使用postgresql.
5. 任务调度:需使用celery。


因为需爬取的各类资源比较多,因此希望尽可能长期合作。
8760 次点击
所在节点    酷工作
22 条回复
yongjiu236z
2016-12-11 00:34:32 +08:00
mutoulbj
2016-12-12 11:38:46 +08:00
@zeuss 哈呀 你是哪个?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/155034

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX