公司想搭建一个类似数据中心的东西，有什么实现思路和方式，还有工具推荐么

tomczhen

2020-11-10 11:01:09 +08:00

性能指标，功能指标，预算指标啥没有，就用云架构吧。

tabris17

2020-11-10 11:03:31 +08:00

碰到过好几次 es 掉数据了。不是很可靠的数据存储后端。

tabris17

2020-11-10 11:07:34 +08:00

另外 es 基本上没什么业务处理能力。不如考虑下 pgsql 或 hive 吧

Renco

2020-11-10 11:08:00 +08:00

@tomczhen 现在暂且是简单选型，和调研，具体指标方面都还没列

snappyone

2020-11-10 11:08:47 +08:00

es 做搜索，存储用 hadoop 这种，计算用 spark 。一年经验确实难为你了

huifer

2020-11-10 11:10:37 +08:00

基础技术选型: Spark/Hive/Flink 这类提供查询方式的. 并不一定是 ES , es 提供全文搜索, 更适合于文档. 非结构化数据.
确定技术选型后需要制作 ETL 即各类数据源数据收集处理, 转换成数据中心(数据仓库)的数据对象(数据结构)
数据转移完成后进行数据分类, 此时接入 ES 或者 MONGODB 我认为相对合适. 此时接入 ES 主要是进行归档数据存储,
后续对外暴露服务可以通过 Spark sql + es 搜索等技术进行暴露服务, 编码语言等不做限制,

ssssshi

2020-11-10 11:11:59 +08:00

直接搜数据中台技术架构 ,照着大厂的架构挑对自己公司有用的来,选型的时候多结合自己公司的业务和各产品特点,比如 CK 查询快,redis 数据新,计算用 hive spark flink 之类的,存储 hdfs,抽取 flume 等等...
一开始的时候架构分层要清晰,不要各种生命周期的数据混在一起

huifer

2020-11-10 11:12:51 +08:00

就针对数据处理而言可能需要采用 MQ 或者主从数据库等形式来尽可能减少对线上环境的影响....考虑不是很全面. 请多指教

Renco

2020-11-10 11:14:48 +08:00

感谢！

Renco

2020-11-10 11:15:18 +08:00

@huifer
@ssssshi 感谢回复建议！

silentt

2020-11-10 11:17:05 +08:00

给你一条生产上的建议，选型一定要选 SQL 语法支持完备的数据库做数仓。你会发现绝大部分大数据的工作都是写 SQL 。

Renco

2020-11-10 11:28:16 +08:00

@silentt 好谢谢！

angryfish

2020-11-10 12:58:17 +08:00

要是我说上 oracle，大家会不会打我

rapperx2

2020-11-10 13:09:37 +08:00

ClickHouse

bxb100

2020-11-10 13:11:27 +08:00

@angryfish #13 确实是好的选择, 但是太贵了

evil0harry

2020-11-10 13:19:23 +08:00

clickhouse + kafka

levelworm

2020-11-10 13:21:30 +08:00

我们用 vertica 和 kafla，但是不知道你具体情况不好推荐。。。

zorui

2020-11-10 13:23:49 +08:00

阿里云的话 dla 可以满足

jadec0der

2020-11-10 13:28:09 +08:00

ES 和数据湖是两个场景，数据湖里的数据做分析，是不在数据库端做条件查询的。比如一个 data scientist 用 Spark 分析订单数据，他会取全量的订单数据放到 Spark 里，然后写 Spark SQL 在内存里对数据进行查询。既然在数据库端不需要做查询，那就不需要对存储的数据做索引，数据存 csv 格式放对象存储里就行了。所以关键看数据怎么用，你得先把这个搞清楚。

zyuu2

2020-11-10 13:34:31 +08:00

postgresql+clickhouse 。clickhouse 存量大的、日志型数据，postgresql 存量小的、聚合后的数据。