100G 左右数据, mysql 理论上可能会比大数据引擎快吗?

2021-10-13 17:16:52 +08:00
 NeezerGu

跟朋友闲聊突然想到,因为是做数据分析的,对底层引擎就不太懂啦。

比如,980pro 4 条组 raid 0 ( YouTube 上有视频,https://www.youtube.com/watch?v=OCGguruZyrw&t=413s 甚至直接 256G 内存,拿 120G 内存当硬盘(一时之间忘了这个名词)

用 mysql 或者 clickhouse,对比 spark 、presto 等,会存在前者更快的可能吗?

2060 次点击
所在节点   Big Data
13 条回复
paopjian
2021-10-13 17:32:12 +08:00
这要干的活都不是一个事吧
NeezerGu
2021-10-13 17:44:24 +08:00
@paopjian 的确不是一个。
正常来讲大厂也不可能用关系型数据库来做数分。
只是好奇如果是小厂,数据量不大的情况下,如果有人维护,mysql 等是否可能战胜大数据引擎
clf
2021-10-13 17:49:11 +08:00
mysql 是关系数据存储。

clickhouse 是数据列存储,以列做统计分析。

spark 是计算引擎(分析工具),数据存储是 HDFS ( Hadoop 模块)。
misaka19000
2021-10-13 17:53:23 +08:00
快,指的是查询快,还是写入快,还是分析快,还是计算快
NeezerGu
2021-10-13 18:13:43 +08:00
@misaka19000 查询快,
粗暴点假定不需要 join,100G 表进行 group by 的 sum 、avg 运算
leonme
2021-10-13 19:04:33 +08:00
@NeezerGu 100g 对应多少行数据呢?
NeezerGu
2021-10-13 19:36:49 +08:00
@leonme 对这方面确实不够敏感 doge,我看了下一个现成的表,9 个字段(没有很长的文本字段),一天大概 300w 行,200M,要不就以这个为例?
那大概就是 150000W 行
billlee
2021-10-13 22:29:40 +08:00
clickhouse 和 mysql 不是一个类型的啊,clickhouse 针对查询建表,比 spark 快是没问题的吧?
Jooooooooo
2021-10-13 22:53:06 +08:00
做什么事快?
noqwerty
2021-10-14 01:53:49 +08:00
ClickHouse 和 Spark 还能勉强比一下,MySQL 跟这两个真不是干一个活的: https://h2oai.github.io/db-benchmark/
noqwerty
2021-10-14 01:56:10 +08:00
这里有些 benchmark 的文章可以参考一下: https://github.com/ClickHouse/ClickHouse/issues/22398
NeezerGu
2021-10-14 10:53:35 +08:00
@noqwerty 感谢
NeezerGu
2021-10-14 10:53:54 +08:00
@Jooooooooo 就像上面说的。
查询快,
粗暴点假定不需要 join,100G 表进行 group by 的 sum 、avg 运算

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/807595

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX