第二部分:可视化和分析 这块我比较熟悉,Power BI 和 Tableau 都做过,虽然经验都不超过一年。这块其实技术上都没啥难度(除非你准备做数据科学的活),大多数应该都是监控和简单的分析,所以最主要的是数据仓库的架构和需求的分析。这个要看具体了,但是你们必须先和 Business 商量好每件事情的 KPI。
3. 接下来业务会和 BI 以及 BA 讨论这个 feature 需要几个 KPI,然后 BI 和 BA 把 KPI 划分成 Dashboard 和 Analysis,一般是 BI 负责 Dashboard,BA 负责 Analysis,不过也有重合的情况。Dashboard 偏重监控,analysis 偏重分析。
千万不要相信用 ES 去做数据仓库,Elasticsearch 不是数据库,而是一个搜索引擎,只是很多人把它当做数据库使用,ES 不适合数据仓库的原因有如下几点:
- 数据在一些统计聚合方面便利性和性能都不够(按时间维度进行复杂聚合用 ES 简直是灾难) - 由于 ES 特性,如果你想保证数据不丢失就需要更多副本,那么就需要更多的资源开销,主要体现在几个方面 - 当数据崩溃后需要恢复的时间很长,我手里面用的 SAS RAID5 的盘,有 1T 数据恢复时间大概需要 5 分钟 - ES 想要稳定的运行那么就需要海量的内存,更多的硬盘空间,这块成本会增加很多