100G 左右数据， mysql 理论上可能会比大数据引擎快吗？

跟朋友闲聊突然想到，因为是做数据分析的，对底层引擎就不太懂啦。

比如，980pro 4 条组 raid 0 （ YouTube 上有视频，https://www.youtube.com/watch?v=OCGguruZyrw&t=413s 甚至直接 256G 内存，拿 120G 内存当硬盘（一时之间忘了这个名词）

用 mysql 或者 clickhouse，对比 spark 、presto 等，会存在前者更快的可能吗？

NeezerGu

2021-10-13 17:44:24 +08:00

@paopjian 的确不是一个。
正常来讲大厂也不可能用关系型数据库来做数分。
只是好奇如果是小厂，数据量不大的情况下，如果有人维护，mysql 等是否可能战胜大数据引擎

clf

2021-10-13 17:49:11 +08:00

mysql 是关系数据存储。

clickhouse 是数据列存储，以列做统计分析。

spark 是计算引擎（分析工具），数据存储是 HDFS （ Hadoop 模块）。

misaka19000

2021-10-13 17:53:23 +08:00

快，指的是查询快，还是写入快，还是分析快，还是计算快

NeezerGu

2021-10-13 18:13:43 +08:00

@misaka19000 查询快，
粗暴点假定不需要 join，100G 表进行 group by 的 sum 、avg 运算

NeezerGu

2021-10-13 19:36:49 +08:00

@leonme 对这方面确实不够敏感 doge，我看了下一个现成的表，9 个字段（没有很长的文本字段），一天大概 300w 行，200M，要不就以这个为例？
那大概就是 150000W 行

billlee

2021-10-13 22:29:40 +08:00

clickhouse 和 mysql 不是一个类型的啊，clickhouse 针对查询建表，比 spark 快是没问题的吧？

noqwerty

2021-10-14 01:53:49 +08:00

ClickHouse 和 Spark 还能勉强比一下，MySQL 跟这两个真不是干一个活的： https://h2oai.github.io/db-benchmark/

noqwerty

2021-10-14 01:56:10 +08:00

这里有些 benchmark 的文章可以参考一下： https://github.com/ClickHouse/ClickHouse/issues/22398

NeezerGu

2021-10-14 10:53:54 +08:00

@Jooooooooo 就像上面说的。
查询快，
粗暴点假定不需要 join，100G 表进行 group by 的 sum 、avg 运算

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.