搞一台服务器,安装数据库 用来做数据分析,放家里,要多少钱

2023-10-24 15:57:43 +08:00
 user667788

感谢大家


需求描述:

做数据分析用的

机器想放在家里(这样成本应该比购买云数据库便宜吧?), 噪音不能太大, 体积没多大要求

具体用途

定时(比如每分钟一次) 从远程获取数据,将数据清洗后, 存入数据库里

后续我会在自己的个人电脑上,通过 复杂的 sql 来访问 数据库里的数据, 生成各种报表

数据量估计有点大,初步估计 前期 可能几个 T 就够了, 后期硬盘可能要 20+T ,

有时候一个 sql 查询,可能会查询好几个表,一次返回的结果可能有几万条记录,甚至更多一些

除了跑数据库,还可能跑一个 web ,展示报表


目前担忧的地方

0 、 需要购置哪些硬件,成本要多少

1 、 初期投入会不会太大

2 、 后续 硬件 是否 方便 扩展 (就怕如果要升级、加大硬盘, 需要重新购买很多东西,怕不兼容)

3 、 假设其中一个硬盘坏了,为了让整个系统恢复,是不是需要很大的代价(比如 是不是得重新抓所有数据)

4 、 其他潜在的麻烦 和风险


请各位前辈指点一二, 谢谢


再次感谢大家

973 次点击
所在节点    服务器
9 条回复
sadfQED2
2023-10-24 16:08:56 +08:00
emm ,你得说下你的需求呀,什么数据库,多少查询,核心查询逻辑啥样的?

没有需求的话,你这个数据量,我目测你是分析场景,推荐 starrocks 数据量,我们目前线上目前跟你数据量差不多,我们是 4 台 be 2 台 fe 的集群,硬件配置都是 96 核,内存多少不知道,6 台目测百万级别
user667788
2023-10-24 16:14:19 +08:00
@sadfQED2 谢谢, 数据库初步是 postgresql , 就我自己一个人用,

# 查询次数

初期 可能 一天就查询几次, 后面有些查询会让脚本来做,可能 一天几十次,几百次查询, 不会太密集


# 查询的核心逻辑

从多个表 拿到数据, 进行各种 join, 或者连接, 得到数据, 方便生成报表, 我猜测这个可能比较费内存
WashFreshFresh
2023-10-24 16:45:50 +08:00
啥数据要几 t ,你这完成清洗入库后不能把远程获取的数据删了吗?
user667788
2023-10-24 16:55:48 +08:00
@WashFreshFresh

一些商业的 大数据, 清洗完成后的数据,如果全部存储起来,20T 估计都装不下, 前期我就打算只存 最新 x 天的数据,比较节省硬盘
vopsoft
2023-10-24 17:36:27 +08:00
我们这儿到是有闲置机柜位置 2u 1-2k/年 以接私活的方式上架 或者只托管硬盘
sadfQED2
2023-10-24 18:57:42 +08:00
@user667788 #2 pg 的话不吃硬件性能,而且你这个查询量,基本上只要能跑起来,都没啥问题。涉及 join 的话可能涉及内存操作,具体得看你表和索引设计。

按你这个需求考虑硬件的话,基本上成本大头就是磁盘,确定有 20T 数据的话,机器上最少要 30T 可用吧,保证高可用,机器使用 RAID1 阵列,需要 60T 硬盘,10T 的硬盘大概 1500 一块,需要 6 块,总计 9000 元。

CPU 内存的话配个 16 核 64G 差不多了

再加上电源、机箱、阵列卡,七七八八,1.5 万内应该差不多了。

以上都是按企业级的方案设计,如果不管稳定性,当垃圾佬的话,那估计两三千就够了
ihuotui
2023-10-24 22:44:16 +08:00
个人搞 tidb 就行了,普通 pc
user667788
2023-10-24 23:09:08 +08:00
@sadfQED2 谢谢指点
user667788
2023-10-24 23:09:17 +08:00
@ihuotui 谢谢指点

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/984945

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX