[有偿] Clickhouse 相关问题求助

249 天前
kahloy  kahloy

小公司,希望部署自己的 Clickhouse 数据库,在经过了一些初步测试之后发现这个数据库的配置较为复杂,希望请教一些细节问题避免走太多弯路,一年的原始数据量大概在 10-20TB 。

我们希望可以通过视频会议或者线下的方式(上海)和我们简单交流,可以解决我们提出的一些具体问题。

绿色软件:YnVubmthbF8zNg==,请备注 Clickhouse

2851 次点击
所在节点   数据库  数据库
37 条回复
NoobPhper
NoobPhper
249 天前
这种体量的 数据 是单表吗? 如果是自己核心业务, 建议上云吧, 要不心里负担会很重的..
superchijinpeng
superchijinpeng
249 天前
可以用 sr, ck 运维到死
dlmy
dlmy
249 天前
你的描述太粗糙了,可以更加详细一点。

比如:
你们预算多少?需要投入多少时间?
什么业务?存储的什么数据?数据增量多少?
具体问题是哪方面?部署?规划?架构?

如果是较为核心的业务数据,建议公司招个全职的 ClickHouse 绝活哥。

如果是通过类似于 Kafka + Flink + OPS->DWD->DWM->DWS->ADS + ClickHouse 实现可视化数据平台的,建议找个懂 Java 跟大数据的架构师帮你们好好规划一下。

还有,ClickHouse 绝对不仅仅是部署,“会用“ 跟 “用好“ 是两个概念。
colinlikepotatos
colinlikepotatos
249 天前
单机自己部署,你这个体量 怎么也的上个小集群吧,别自己搞了,不大不小 上云是最划算的
kneo
kneo
249 天前
据我所知这东西挺折腾的,特别是升级经常出问题。反正不是花点钱找人帮忙装好就一劳永逸的。你们得做好长期战斗的准备。
weijancc
weijancc
248 天前
@dlmy #3 我就自己记录下统计数据, 2g 内存的机器就能流畅运行 docker clickhouse, 目前 3000w 数据, 也不用运维啥, clickhouse 挺牛逼的.
dlmy
dlmy
248 天前
@weijancc
你这数据体量小的可怕,很多问题都还没暴露出来。

我做的这个项目,每天 5 亿+ 的数据量,使用 Flink 做实时计算,Kafka 作为数据流转容器,经过多层级数仓,最终入库 ClickHouse 。

因为公司数据都存储在 IDC 机房,所以 ClickHouse 也部署在里面,每次服务器一打补丁或者 ClickHouse 升级就炸,还经常出现一些莫名其妙的问题,偶尔来几个疑难杂症折腾人。

后面高薪挖了 3 个 ClickHouse 绝活哥,从架构层面统筹、资源层面规划、使用层面整改...
现在出问题的次数很少了。

ClickHouse 是挺复杂的,我搞了两年,理论知识没问题,但一出实际的生产问题就开始头痛,尤其是一些找不到原因的问题。

楼下有很多人一张嘴就上云,但是很多公司的核心数据都是放在自建的 IDC 机房内,这是公司最为核心的数据资产,怎么可能上云。
dode
dode
248 天前
我觉得 clickhouse 是列数据库,在频繁处理单列数据时,比普通数据库效率,性能高
standchan
standchan
248 天前
上云,有问题找云的人就行了
kahloy
kahloy
248 天前
@dlmy #3 我们不熟悉 Clickhouse 绝活哥的市场价格等等,所以希望先了解一下市场。 预算,时间,目前看还是比较紧的,而且其实已经能运行了,但是如您所说,“用不好”,所以想具体了解一下市场。增量数据就是每年 10-20TB 的日志,运行记录等等。

您是否方便推荐一下 Clickhouse 的绝活哥,大家喝个咖啡简单讨论一下?
kahloy
kahloy
248 天前
@kneo 那有什么替代方案吗?我们就是大量时间序列,需要读快,写尽量快。。。
kahloy
kahloy
248 天前
@superchijinpeng SR 是 StarRock?
huigeer
huigeer
248 天前
CK 用 k8s 性能会打折扣吧,本身这玩意的并发性就不好,
kahloy
kahloy
248 天前
@huigeer 好的,那请问 byconity 是不是一个好选择呢?
liprais
liprais
248 天前
这种数据量用 pg 就行了用啥 ck
huigeer
248 天前
招一个懂 CK 的运维吧
kahloy
248 天前
@dlmy #7 或者 ByConity 是不是一个好选择?我们业务并不复杂,其实就是想实现一个高效的大硬盘思路,目前并没有什么数据之间的交互。
kahloy
248 天前
@colinlikepotatos 硬要求就是不上云,所以云就算了... 我们自己会买小集群
luciankaltz
248 天前
> @kneo 那有什么替代方案吗?我们就是大量时间序列,需要读快,写尽量快。。。

@kahloy 时间序列是指时序数据吗,从数据规模上来看好像也没有非 OLAP 不可?(
yingqi1
248 天前
这个数据库可行吗? https://github.com/taosdata/TDengine

star 很多,看历史有点像刷的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1050071

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX