这是一个创建于 3839 天前的主题,其中的信息可能已经有所发展或是发生改变。
谢谢
领导让我实现一个东西,我思考良久,觉得还是再请教下各位前辈,请大家指点,谢谢你们
环境如下:
数据库使用postgresql
主要语言是python
系统ubuntu
使用的云主机是阿里云
使用python里的web框架flask来分析查看数据
目前购买了5台阿里云主机,内存都是1G的 也都是1核的,
目前的架构思路如下[我也会在思路中描述出需求,请大家帮忙优化下架构]:
通过web前台,添加任务,比如要采集某个XXX,当任务添加后,把任务XXX存入postgresql,然后服务器上的守护程序检测到数据库里添加了新任务,并且状态是未完成,立刻获取任务,然后把任务进一步细化,然后分配给另外4个机器上的爬虫,然后爬虫接到任务,开始执行,得到任务结果后,把任务传给主服务器上的守护程序,守护程序把数据存入数据库,改变任务状态为[已完成],
这样就完成了一次任务,但有时候某些任务,是需要24小时X7天 每间隔10秒执行一次,或者每间隔几分钟执行一次,这样的话,爬虫就是永不停歇的工作
下面,我说出我的困惑,请大家帮忙指点下
请问我的架构思路有什么地方可以优化吗,如何优化?如果让您来完成这些功能,您会如何做?
。