今天开源了一个自己写的数据仓库原型

2020-08-07 20:49:35 +08:00
 jinmingjian

潜水好久...

这个项目的特点是高性能,面对海量数据时所需要的高性能。

项目以 Rust 语言构建系统,C 语言提供运行时查询内核。目前原型提供两个命令行:baseops 做数据导入和表信息维护; baseshell 查询数据。查询现在可以提供整数类型列的简单 sum 聚合查询,能在 100 毫秒左右完成 15 亿行数据的 sum 查询,是 clickhouse 的 6 倍。

Rust 虽然比 c++已经降低了很大的门槛,但良好地掌控还是需要一些经验。相反,如果有系统编程或者高性能编程经验的小伙伴会比较 exciting,v2 上应该有这样的基友吧。

这个开源项目也想证明中国工程师在性能关键的数据基础设施领域可以一战。其实这几年中国已经有了一些世界级的开源项目,但以大厂背后 kpi 驱动为主。在大数据领域,更多的公司使用的是,美国开发的( Hadoop/Spark ),俄罗斯开发的( clickhouse ),德国开发的( xxx )( v2 招聘贴也可以看出)。中国工程师只能到这些项目 contribute ?当然,之前选择不多是事实,但我个人希望这种情况越来越多地可以改变。

今天我就出来做个先驱,我就要点燃这样一个火把,证明中国工程师也能写顶级性能的开源大数据数据基础设施。

有兴趣的基友们 join in 或者 star 个赞吧:)

https://github.com/tensorbase/tensorbase

3796 次点击
所在节点    程序员
26 条回复
jinmingjian
2020-08-08 16:57:56 +08:00
@leeg810312 哦,对不起看错了,存储其实他做的相当不好,就不不具体批评了。ch 的程序员比较“吸收”和优化算法,比如 hashtable 改改。即便同样一个方向,Base 的做法也会很不一样。
BIAOXYZ
2020-08-08 21:40:03 +08:00
@jinmingjian #10 您好,我去了官网 https://tensorbase.io/ ,点了“Join Slack”,然后怎么也加不进去。。。我记得 k8s 的官方 slack 里是个 invite 的链接,一点就可以加进去了。不知道是我这的问题(我不止一个 slack 账号- -公司邮箱的公司用,个人的个人用)还是那个 slack 链接没有类似 invitation 功能的问题。。。
jinmingjian
2020-08-08 22:08:42 +08:00
@BIAOXYZ 感谢反馈!我明天下午 teams,wechat 等多加几个!这几天观察发现 slack 和 teams 似乎都有不稳定的时候。想准备一些线上活动,对 rust 和数据之一有兴趣机油们可以定期快闪聊聊,可关注项目页面更新的这些渠道!
Sasasu
2020-08-10 21:20:09 +08:00
这个扫描速度是 110GiB/s 如果每列都有 8 byte 的话

是不是把数据的熵减少到极限了,比如一堆 0 bit 相加。

这个速度已经超过我认知的内存速度了
jinmingjian
2020-08-10 21:52:28 +08:00
@Sasasu 并没有。实际上,没有进行压缩,列类型大小为 4B 。内存最大带宽比较容易估算:每个内存通道的带宽为大约为 20GB/s,xeon sp 通常是 6 通道,所以总带宽是~ 20*6=~ 120GB/s,具体大小和 DDR4 的内存频率是有关系的。我看过某块 8280M 能到 123GB/s,这都是代码能跑出的真实带宽。简单说,适当的运算代码是可以基本达到最大理论带宽的。
heavyrainn
2020-08-11 18:00:41 +08:00
star 一下,给大佬提鞋…

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/696587

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX