搭建 [物联网] 数据中台

212 天前
 RedBeanIce
我们是一个 30 人不到的小开发团队。

目前选型数据库是 tdengine ,但是遗留了很多老系统有数据库 sql server ,mysql 等等

我们要将这些其他数据库的数据同步到 td 里面,我们查询了很多文档,类似 datax 方案,类似 flink cdc 方案,消息队列方案,流处理方案,数据库本身自带的主从方案。

请问一下问题:
1 ,我们选择 td 数据库有问题么
2 ,数据同步方案有推荐的么,我们目前准备使用 datax ,原因是他简单。
我们没有人维护 flink 大数据相关的集群,也没有人去维护消息队列的高可用。
3471 次点击
所在节点    数据库
50 条回复
qiyilai
212 天前
数仓用 doris
SbloodyS
212 天前
一般衡量的标准有预算、数据团队大小、业务体量(数据量)、需求,有了这些才好进一步评估
NoobPhper
212 天前
tdengine 不是时序性数据库吗, 轻量级 OLAP 应该能做, 但是稍微复杂点的这玩意不好做, 不要把架构整这么复杂, 如果是云上服务的话 建议 买云服务, 因为现在的 无论是 HTAP Database 还是纯 OLAP database 如果自建 , 运维(安全稳定)都是极大的心里负担
hero1874
212 天前
我看 tdengine 也是针对物联网的,也许会比较契合你们物联网数据中台的业务,但还是像 2 楼说的那样才更好评估,如果你们没有实时性的要求,其实也没太大必要投入服务器成本和运维成本去搞一套 flink 集群,用 dolphinscheduler 海豚调度去配合 datax 其实也是可以的,如果没有对时序数据库的需求,可以调研看下 doris 和 starrocks ,起码这两个运维会好很多
RedBeanIce
212 天前
@SbloodyS
@hero1874

预算约等于无,数据团队都是开发在临时做一下。数据量大概超过一千个设备,说是 3-5 秒采集一次数据。

需求是问的那样,物联网数据中台,将多个数据库的数据采集到里面。
进行数据的分析,预警,报表,等等
RedBeanIce
212 天前
@qiyilai 好的!我去和领导聊一下,,,目前定的是 td
RedBeanIce
212 天前
@NoobPhper 预算约等于无,都是自己搭建的。
jiakme
212 天前
1. 梳理需求背景和当前现状:a. 人员素养 b. 数据量,冷热情况,TPS/QPS c. 未来数据清洗情况
jiakme
212 天前
1. 梳理需求背景和当前现状:a. 人员素养 b. 数据量,冷热情况,TPS/QPS c. 未来数据清洗情况,数据分析维度 d. 当下硬件条件,网络情况,技术栈
2. 结合前述条件分析引入技术栈情况:如果数据局部热,大部分冷,完全可以采用冷数据写入方式,只要有一个热点数据接收即可,无须引入 cdc ; TPS 和数据量少,直接用 mysql 抗,高版本 mysql/pgsql ,简单数据 TPS 200 ,几千万数据量随便用;中间件需要取舍一下轻量级和重量级,flink cdc 比较轻量,可以直接内嵌 springboot 使用,无须作为 flink task 集成,datax 有点重
3. 编写 demo ,流程可行性确认,成本确认
4. 方案实现和上线
xueling
212 天前
你说的物联网的数据中台,我觉得应该有两方面作用:1 是物联网设备上报的原始消息的读写,2 是相关数据指标的统计监控,我觉得第一部分的功能选择时序性数据库还可以,但第二部分的功能其实很牵强,虽然时序数据库也可能有这方面的功能,但性能不会很强。我建议您了解一下我的开源项目: https://github.com/xl-xueling/xl-lighthouse ,虽然是大数据项目但后期维护其实非常简单。支持一键部署、数据自动备份、可以灵活扩容,轻量级使用,可以快速实现大批量数据指标。
xianzhe
212 天前
不要 ALL in 一个地方,物联网数据上报和分析显然一个写入要求高,一个读取要求高,没有哪个数据库能做到既要又要的。你应该选择一个写入很快的数据库,LSM 类型的都可以,这里面保存原始数据。数据通过 ETL 后存入另一个 OLAP 数据库,这样起码做到了读写分离。
zhonj
212 天前
@RedBeanIce #7 优化一个开发,你就会发现服务器有丰富的预算了,每个月 2 万块钱投入云服务器,速度不仅块,服务也有保障🤣,很多东西直接一把梭就好了,系统复杂性,可维护性都会有很大的提升😊
RedBeanIce
212 天前
@xueling 非常感谢!我去试试!
RedBeanIce
212 天前
@xianzhe 可惜我们没有往这一块考虑。

目前想的是,先把其他地方的数据捞取到 td 。
RedBeanIce
212 天前
@zhonj ~~~~~
haimianbihdata
211 天前
@qiyilai 物联网这块应该用的比较多的是一些时序数据库吧。doris 在这一块也好使吗?
levelworm
211 天前
业务上数仓的需求是啥?选型和开发都是跟着需求走。
humbass
211 天前
redis 队列缓冲下 --> TDEngine.
kk2syc
211 天前
先考虑 raw_data 统一格式存储,确保不会漏掉任何一条上报数据。那么,剩下的都是小事情,哪怕不同需求、不同团队甚至不同数据库重构都可以。
RedBeanIce
211 天前
@levelworm 如 append 所示

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1045147

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX