企业级云爬虫应用如何架构?

2014-05-25 13:41:08 +08:00
 fdsfsdfsdf3334
谢谢
领导让我实现一个东西,我思考良久,觉得还是再请教下各位前辈,请大家指点,谢谢你们

环境如下:
数据库使用postgresql
主要语言是python
系统ubuntu
使用的云主机是阿里云
使用python里的web框架flask来分析查看数据

目前购买了5台阿里云主机,内存都是1G的 也都是1核的,

目前的架构思路如下[我也会在思路中描述出需求,请大家帮忙优化下架构]:

通过web前台,添加任务,比如要采集某个XXX,当任务添加后,把任务XXX存入postgresql,然后服务器上的守护程序检测到数据库里添加了新任务,并且状态是未完成,立刻获取任务,然后把任务进一步细化,然后分配给另外4个机器上的爬虫,然后爬虫接到任务,开始执行,得到任务结果后,把任务传给主服务器上的守护程序,守护程序把数据存入数据库,改变任务状态为[已完成],

这样就完成了一次任务,但有时候某些任务,是需要24小时X7天 每间隔10秒执行一次,或者每间隔几分钟执行一次,这样的话,爬虫就是永不停歇的工作

下面,我说出我的困惑,请大家帮忙指点下

请问我的架构思路有什么地方可以优化吗,如何优化?如果让您来完成这些功能,您会如何做?




3047 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/114158

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX