V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
icemanpro
V2EX  ›  问与答

每天 800 多万条环境采集记录,用什么数据库保存比较好?

  •  
  •   icemanpro · 2023-05-11 11:08:27 +08:00 · 4782 次点击
    这是一个创建于 591 天前的主题,其中的信息可能已经有所发展或是发生改变。
    数据要保存 1 年,哪种数据库比较好?现在只会用 mysql.
    32 条回复    2024-06-13 17:51:48 +08:00
    wy315700
        1
    wy315700  
       2023-05-11 11:12:24 +08:00
    试试 Elastic Search
    cnoder
        2
    cnoder  
       2023-05-11 11:14:23 +08:00
    clickhouse
    optional
        3
    optional  
       2023-05-11 11:15:18 +08:00 via iPhone
    clickhouse
    Worldispow
        4
    Worldispow  
       2023-05-11 11:17:58 +08:00 via Android
    不考虑授权的话, 肯定是 oracle
    leeyuzhe
        5
    leeyuzhe  
       2023-05-11 11:20:21 +08:00   ❤️ 1
    tdengine 轻轻松松,要是不喜欢国产就用 influxdb 。
    你这个情况无脑上时序数据库
    zhuangjia
        6
    zhuangjia  
       2023-05-11 11:45:23 +08:00
    clickhouse
    iRiven
        7
    iRiven  
       2023-05-11 11:52:54 +08:00
    如果是时序数据,就用时序数据库
    haimianbihdata
        8
    haimianbihdata  
       2023-05-11 12:09:39 +08:00 via Android
    Doris 没人推吗
    0ice
        9
    0ice  
       2023-05-11 12:21:20 +08:00
    推荐 ClickHouse ,我们使用 ClickHouse 存储各种传感器数据,每天存储数据量过亿。
    Victor215
        10
    Victor215  
       2023-05-11 12:25:27 +08:00
    是物理设备还是云端系统?什么部署场景?有多少运维人员?运维人员水平怎么样?没有详细的背景,这玩意儿推荐了全是坑……
    litguy
        11
    litguy  
       2023-05-11 12:40:46 +08:00
    我曾经用 cassandra ,感觉很好用
    HunterPan
        12
    HunterPan  
       2023-05-11 13:47:35 +08:00
    上时序,压缩比高,查询也可以
    git00ll
        13
    git00ll  
       2023-05-11 13:55:42 +08:00
    doris
    arvinsilm
        14
    arvinsilm  
       2023-05-11 14:12:12 +08:00
    要考虑主要读写场景吧,只是单纯冷数据存储,什么数据库都行
    zhuanggu
        15
    zhuanggu  
       2023-05-11 14:48:27 +08:00
    用什么存关键是看你要怎么用
    jeanz
        16
    jeanz  
       2023-05-11 15:24:09 +08:00
    clickhouse +1 ,语法和 mysql 相似,而且查找效率还高
    xuelu520
        17
    xuelu520  
       2023-05-11 15:52:37 +08:00
    得看你怎么用,如果只是冷数据,随便什么都行,甚至写文件都行。
    superliy
        18
    superliy  
       2023-05-11 16:03:27 +08:00
    @0ice ClickHouse 多人同时查询是不是要排队的?如果前端要展示设备最近的数据,用户多了是不是就会有问题
    0ice
        19
    0ice  
       2023-05-11 18:05:22 +08:00
    @superliy 没问题的,clickhouse 是列数据库,查询性能非常强,我们前端展示历史趋势都是直接查询。
    sadfQED2
        20
    sadfQED2  
       2023-05-11 19:29:55 +08:00 via Android
    你得说说你的业务场景啊。需要怎么查呀。
    sadfQED2
        21
    sadfQED2  
       2023-05-11 19:34:02 +08:00 via Android   ❤️ 2
    楼上有说 ck 的,也有 doris 的,那我推荐一个 starrocks 吧。根据我们压测数据来看,性能基本上全方位领先 ck
    iwishing
        22
    iwishing  
       2023-05-11 22:46:39 +08:00
    TDengine
    huzhizhao
        23
    huzhizhao  
       2023-05-12 08:14:43 +08:00
    采集应该是什么物联网设备的吧?
    上个时序数据库吧,具体你就再问问其他人吧
    superliy
        24
    superliy  
       2023-05-12 09:26:43 +08:00
    @0ice 你说的是单次查询性能,我说的是 qps ,刚刚搜索了一下

    ClickHouse can handle very high query per second (QPS) rates, compared to traditional data warehouses. On a single server, it can run sustain hundreds to thousands QPS, depending on query complexity. We recommend starting at a maximum of 100 queries per second, and tuning this number as needed from there.

    大部分确实够用了
    superliy
        25
    superliy  
       2023-05-12 11:03:37 +08:00
    @sadfQED2 starrocks 好像挺牛的,有和时序数据库对比过吗,以后设备数据采集是不是可以直接 starrocks 了,不考虑时许数据库了?
    sadfQED2
        26
    sadfQED2  
       2023-05-12 12:01:08 +08:00 via Android
    @superliy 我们只和 ck 对比过,我们压测了聚合和普通查询,查询性能均领先 ck 一个数量级。

    并发性能和 ck 差不多

    我们 72 亿数据,3 台 be 两台 fe 的技术,单机 96 核 200G 的配置,qps 只能压到 20 ,单次查询 1 秒以内(聚合 sql+having 条件过滤)
    superliy
        27
    superliy  
       2023-05-12 13:14:08 +08:00
    @sadfQED2 qps 只能压到 20 ??
    ck 的文档写 qps 至少 100 以上啊,https://clickhouse.com/docs/en/faq/general/why-clickhouse-is-so-fast#throughput-when-processing-a-large-quantity-of-short-queries

    On a single server, it can run sustain hundreds to thousands QPS

    qps 很小的话是不是要搞个队列缓存查询的请求啊
    sadfQED2
        28
    sadfQED2  
       2023-05-12 13:59:04 +08:00 via Android   ❤️ 1
    @superliy 别人 ck 写的是默认配置最大 100 。实际上能达到多少 qps 得看你的查询复杂度,这类实时引擎能支持 qps 都不高,我们是在引擎前面加了 gateway ,gateway 做负载均衡,然后硬堆机器把并发堆上去
    sadfQED2
        29
    sadfQED2  
       2023-05-12 14:00:57 +08:00 via Android
    @superliy ck 可以改配置文件,把并发 100 的限制调高,到其实意义不大,真正数据量大了,查询复杂以后,个位数并发就把 cpu 打满了。想撑并发的唯一办法就是无脑堆机器
    zagfai
        30
    zagfai  
       2023-05-12 16:12:35 +08:00
    时序数据库
    codeboy18
        31
    codeboy18  
       191 天前
    @sadfQED2 为啥我们测出来单表大查询下,ch 比 sr 快得多,而且 sr 对机器磁盘配置要求比 ch 高得多。
    codeboy18
        32
    codeboy18  
       191 天前
    @sadfQED2 你们磁盘配置是什么样的? hdd or ssd ?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2800 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 08:50 · PVG 16:50 · LAX 00:50 · JFK 03:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.