公司想搭建一个类似数据中心的东西,有什么实现思路和方式,还有工具推荐么

2020-11-10 10:54:48 +08:00
 Renco

大致需求是 所有系统的数据可以抽出来放入数据中心里,所有系统可以通过固定规范访问数据中心获取对应数据。进入到数据中心的数据需要经过一定的校验,否则会生成 csv 文件,人工修改后再选择传入数据中心。数据中心本身需要有一定的简单的业务处理能力,能对外提供查询服务(全文检索),并且可以对已有的数据进行分析的功能。

我自己的想法是可以先通过 es 实现。但是架构师后来给我提了什么数据仓库或者类似数据湖的概念,我查询了下又觉得 es 不足以能够实现或者替代 数据仓库和数据湖的思想。这种需求还有什么其他的解决思路么。

ps:个人感觉我一年的 java 开发经验上手做这种东西有点蛋疼了:( 不过创业公司,架构师基本上是一个大功能模块放出来,给我们一个思路让我们自己去尝试实现,只能加把劲争取做了。

路过的大佬给点思路!跪谢!

5941 次点击
所在节点    程序员
28 条回复
teddy2725
2020-11-10 15:20:10 +08:00
这就是典型的数据仓库场景嘛,看来还有些元数据管理和数据治理的需求。让你一个一年经验的 java 搞这不是为难你嘛。架构师不出方案的嘛。
a719114136
2020-11-10 16:50:11 +08:00
能用现成的就用现成的吧,阿里云有个 MaxCompute 可以试下。
stephenxiaxy
2020-11-10 18:44:46 +08:00
clickhouse
yangzh
2020-11-10 19:03:26 +08:00
如果是分析数据的话,楼主可以搜索一下以下关键词:spark/clickhouse/postgresql,此外数据入库可以搜索以下关键词 flink/kafka 等。分析场景和 ES 还不太一样。

此外有条件的话可以考虑上云,例如楼上说的某云的 maxcompute (利益无关,几大公有云应该都有解决方案),否则运维会耗费精力。
NCE
2020-11-10 19:50:17 +08:00
你们公司真有钱,可以让架构师这么嚯嚯。
springz
2020-11-10 20:46:37 +08:00
看需求还是推荐 Greenplum,所谓的数据分析,大数据工程师,其实都是 SQL 工程师。
lrvy
2020-11-10 20:53:00 +08:00
logstash 采集 --> kafka --> ETL --> ClickHouse/Hive, 短期日志放 ch,冷数据丢 hive
mason961125
2020-11-10 20:54:39 +08:00
好家伙,点进来之前以为要建 DC

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/723503

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX