求助十亿级数据库解决方案，是否有比 PostgreSQL 更好的选择？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2212 天前的主题，其中的信息可能已经有所发展或是发生改变。

现有几十台测试机，每天一共生成两百万行的测试数据，每一行包含了测试时间、几个设置项与200-300 个测试结果。测试结果几乎都为 20 位浮点数。
需求
1.在特定的设置项下，求出每台机每小时各种测试数据的平均值
2.查询特定设置项与测试时间下的测试结果

其他要求：
1.测试结果可能会有增减，意味着可能要在生产中新增列，可以不减列。
2.一台测试机会同时测几颗 IC （机台有好几个栏位可以同时测试），意味着会有几行数据时间完全相同的情况
3.如果解决方案需要行的唯一性，那这个唯一性需要机台+测试时间+栏位来确定。
4.暂时没钱上分布式
5.暂时不会上云

现在的实现思路：
1.上 PostgreSQL，测试时间按每日水平分表，用的是内置分区表（之后考虑用 pg_pathman ）
2.BRIN 索引各设置项与测试时间
3.建一个平均值表，每小时把上个小时各项测试数据的平均值加进去

问下还有没有更好的解决方案？

第 1 条附言 · 2019-08-31 08:07:46 +08:00

感谢各位的建议，由于考虑到运维难度、操作系统支持（ windows 支持可能是必不可少的）与在公司内推广的可行性，最后选定 TimescaleDB

测试

平均值

栏位

postgresql

19 条回复 • 2019-08-31 13:06:24 +08:00

lolizeppelin

2019-08-30 15:03:34 +08:00

时序的数据？装 pg 的 timescaledb 插件啊

不用自己弄分区和 BRIN 索引了

lolizeppelin

2019-08-30 15:05:14 +08:00

思路都是找时序型数据库
PG 正好有时序插件, 比专门的时序数据库差一点,但是功能上是标准的 sql

StarkWhite

2019-08-30 15:28:01 +08:00

TiDB 吧，听说是专为海量数据的 OLTP 和 OLAP 而生的
https://pingcap.com/

EmdeBoas

2019-08-30 15:40:15 +08:00

不适合 TiDB，考虑时序数据库（ TDengine 最近好像挺火=-=没实际用过）或者专门的 AP 引擎都行

F281M6Dh8DXpD1g2

2019-08-30 15:43:49 +08:00

tidb 的 olap 跟没有也差不了多少

opengps

2019-08-30 15:44:45 +08:00

没用过 PG，不敢多说话，我按照关系型数据库回复下，看看能不能找到什么突破办法

需求
1.在特定的设置项下，求出每台机每小时各种测试数据的平均值
--每天 1-200 万这个数量级还行，适合每天一个单表
2.查询特定设置项与测试时间下的测试结果
--不知道具体业务答不上来

其他要求：
1.测试结果可能会有增减，意味着可能要在生产中新增列，可以不减列。
---每天一张表的量不算多，插入时候不至于太明显影响性能
2.一台测试机会同时测几颗 IC （机台有好几个栏位可以同时测试），意味着会有几行数据时间完全相同的情况
--类似于无主键的设计，但是要用时间列聚集索引，这里我也先想到了时序数据库
3.如果解决方案需要行的唯一性，那这个唯一性需要机台+测试时间+栏位来确定。
--行唯一性建议用唯一联合索引
4.暂时没钱上分布式
--首先你这个算集群不算分布式，分布式是不同任务的多个组件。集群是相同职能的多台机器
--然后你的量有点大，注意用多块硬盘，增加硬盘数量分散 io，具体依赖 raid 还是手动分硬盘存储看自己情况
5.暂时不会上云
--看得出来是内部测试终端类设别使用，选型时候从来都是建议越靠近用户越好，不上云并不是坏事，注意做好备份