问题源于一个需求:把很多不同业务的数据融合(各种类型,日志、营收、监控以及物联网设备等所有数据),需要对所有数据做统计分析以提供决策支持,有一些情况如下
- 数据来源杂,不同区域不同机构不同业务,现有数据各个部门自己采集存储,所以使用的库种类多;
- 所有目前积累数据总大小目前估算是 100TB+,大约 5 年;按业务情况说,数据产生速度会越来越快,具体快多少不知道;
- 最终的统计会涉及实时监控预警,历史数据各种指标,以及有一部分数据挖掘的想法;
- 当然做成了之后也可能会有其它需求
对这方面了解不多,对于 Hadoop,Spark,流处理批处理,数据仓库,数据集市之类的,虽然之前间接接触过,不过毕竟没有动过手,动手的只是其中小部分,其它的也只是了解大概。
心里大概有个模糊的流程和架构,但是具体可以采用哪些框架,流程是如何,为什么用这个或那个,还不定。有没有人大概讲解一下! thx !
#学习中#