求助,公司新建一个系统,几十亿条数据,需要业务人员能写一些简单的规则做一些数据离线筛查和判断,每天新增数据几万条。数据现在都在 MySQL 做的数仓。
规则编写想用 drools ,现在遇到了数据读取大的问题,需不需要上 hadoop 全家桶?还是简单一点,spark➕HDFS 、Hive➕drools 。对大数据了解不多,请大大们提提建议
1
v1 110 天前 怎么简单怎么来,解决问题最重要,一切为了业务。
不然就是这个流程: 写方案->做调研->得结论->报领导->开会议->扯预算->被优化 |
2
guo4224 110 天前 via iPhone 几十亿看看 es 就行了吧
|
3
includewins0ck2h 110 天前 duckdb 感觉轻轻松松
|
4
dododada 110 天前 clickhouse ,只要更新不大没什么问题,hadoop 有点重
|
5
colincat 110 天前 drois 轻轻松松
|
6
springz 110 天前 这么一点点数据,duckdb 还没热身。或者存成 Parquet 文件,爱用啥用啥。
|
7
springz 110 天前 看自己情况,公司资源丰富的话夸大一点,多争取点资源练手也行。不过建议不要上 hadoop 的船,淘汰了的玩意。
|
8
superchijinpeng 110 天前 大数据已死
|
9
lambdaq 110 天前 看你是求快速解决问题,还是扩大团队编制
如果求快现在 10 亿量级单机轻松跑 但是单机肯定不可能给你配几十条人的大数据团队。 |
10
ptaooo 110 天前 不建议 hadoop ,太重了,维护成本也不低
|
11
masterclock 110 天前 才这么点数据,上个毛线 hadoop
|
12
leeg810312 110 天前 小团队直接用 doris 或 clickhouse 好了,几台机器做集群。Spark 现在没有可用的开源集成套件,CDH 早就不更新不提供支持了,自己搭建得有人自己会维护。
|
13
CoderGeek 110 天前 clickhouse
|
14
yb2313 110 天前 我推荐 clickhouse, 部署简单文档完善, 对比竞品非常清爽
|
15
min 110 天前 单机 duckdb ,分布式用 doris 系即可
|
16
tabris17 110 天前 clickhouse+1
甚至 postgresql 都可以 |
18
Grand 110 天前 离线分析随便玩吧,感觉不重就行
|
19
cando 110 天前 StarRocks
|
20
bronyakaka 110 天前 1 、如果不需要模糊搜索,上 clickhouse ,适合各种分析统计
2 、如果需要搜索,上 ES ,其实也支持分析统计,不过性能稍弱 3 、单机的话,这俩部署都比较简单。几十亿数据单机足够 4 、如果觉得上面俩还是太重,试试 duckDB ,10 亿级问题不大 |
21
Cruzz 110 天前 via iPhone 你这体量上啥 hadoop 。
|
22
godguoht1573 110 天前 StarRocks+1
|
23
zsk425 110 天前 via Android 可以考虑直接以表的形式存储在 S3 上,用 Athena 查就行,毕竟只要离线,这应该是最省钱方案之一了
|
24
springz 110 天前 #9 说的才是真理,其实要看是要解决问题还是切一块资源。
|
25
assiadamo 110 天前 之前看 duckdb 的文章在 2012 年的 4 核 i7/16G 内存的 macbook 上跑数十亿查询行数据的查询没问题
|
26
OliverDD 110 天前 单机 duckdb
|
27
samwellwang0 110 天前 pg 或者 es 就行
|
28
xuelang 110 天前 推荐 clickhouse ,真的快~
|
29
levelworm 110 天前 via Android 找数仓就行了,据说 clickhouse 不错。
|
30
linhrdom 65 天前
数据不需要加工开发,不需要 ETL ,不考虑 join 纬度表,就用 clickhouse ;
有 ETL 加工,要么选择 Spark 或者用云器 |