有没有推荐的时序数据库或者其他数据库?

背景:

公司有 30W 台设备,高峰时 6W 台在线,每隔 5s 上传一次数据,一年大概只有 6 个月左右工作.大概整个生命周期内 100W 条数据(每条数据算 64 个监控点),每年预计 10W 新设备增长,数据永久保存(最大到 100W 台设备).

现在使用单机 InfluxDB,总记录 600 亿左右,硬盘占用 4T,高峰时内存经常用满128G导致重启.

写多读少.

需求:

免费;
内存,硬盘占用少(新机器只能分配 128G 内存和 15T 的 SSD);
数据永久保存的情况下(每个设备 50W~100W 的数据量)近期数据的查询时间在 10s 内;
支持少量乱序写入.

最近调研了几个数据库:

TDengine:

a. 数据和表删除不会释放空间,只能 keep 设置的数据到期才会删除(企业版支持数据重组),而且乱序写入好像还会占用额外空间?

b. 性能还行,单表 1 亿的情况下也能在 10s 内,百万数据的话 1s 内(1W 个表,就一个表 1 亿数据,其他表只有 1W 数据).
IoTDB:

a. 性能还行,没多测;

b. 内存,硬盘按他给的算法,占用很多.
QuestDB:

a. 数据量一亿的情况下性能还行,占用跟 TDengine 差不多;

b. 数据量上到 10 亿后,查询性能下降非常多,写入也慢(吃 CPU,不过够用).

前几天看到站内的VictoriaMetrics/Prometheus+Thanos还没测,不知道具体咋样.

大家有没有什么好的推荐?

wxf666

268 天前

需求是这样吗：每秒最多写入 (100W 在线设备 / 5s/条) = 20W 条数据，每条 (4 << 40) / 6e10 = 73 字节？

没用过太高大上的数据库，只有点朴素的想法。

1. 每小时的数据，存在内存里（需 20W * 3600 * 100 / 2 ^ 30 = 67 GB 内存）
2. 数据库 ID 设计为（时间戳_年~小时 + 设备 ID + 时间戳_分~秒）
3. 整点后，按 (设备 ID, 时间) 顺序，写入这一小时数据，至数据库。（顺序写入，很快的）
4. 如果怕丢失数据，接收到上报信息后，也同步写入到 csv 文件里。
　（也是顺序写入，很快的。如果只是《时间戳，设备 ID 》信息，每秒顺序写入 (10 + 1 + 6 + 1) * 20W / 2 ^ 20 = 3.43 MB 数据而已）

这样搞下来，数据库相当于《读多写少》了。正好可以考虑 SQLite 、DuckDB 等。。

试了下，对于 SQLite ，如果只是存上述主键的话，一小时 7.2 亿数据，需要 10GB 文件，写了 5 分钟。。（平均每秒 200W ，还行）

前几天回帖过，SQLite 可以 0.1 秒，在 1 亿数据里，找什么设备，什么时候离线超过 24 小时（每台设备每分钟上报一次）。

当然，这是缓存了 1 GB 内存的结果。在固态上，完全无缓存，需要几秒钟。

具体要啥查询，题主也没写。。只能联想到前几天，有点相关的场景了。。

如果换 DuckDB ，应该能更快。我没试过。

xueling

267 天前

时序性数据库可以考虑 VictoriaMetrics ，TimescaleDB ，hbase 等方案。我不知道你说的数据查询场景都有什么场景。如果大部分是分钟、小时、天等粒度的指标查询，可以不依赖时序数据库，而依赖流式统计来实现，因为时序性数据要对存储到磁盘的数据进行计算汇总后再返回结果，这个查询效率其实并不非常高，而流式统计其实更适合。技术方案可以变更为：1 、使用时序性数据库存储原始数据，作为备用，2 、使用流式统计服务提供数据指标查询功能。这样流式统计服务可以分担很大的数据查询压力。可以考虑一下我的开源项目： https://github.com/xl-xueling/xl-lighthouse