实验室想采购个深度学习工作站,候选采购商给了个配置建议,菜鸡不是很懂,希望大佬们给个建议

2020-06-04 19:19:55 +08:00
 xwander

实验室情况是:

1.人很多,并且目前没有旧的可用,好像是原来有但出问题了,我之前帮师兄跑实验都是自费买的 GPU 租赁服务,泪目。

2.主要的计算任务是 NLP 方向的。

3.GPU 服务器计划放入空调房,噪音和产热问题好像并不用太过担心。

4.预算方面不能一次性超 10 万,如果存储空间不够,可以后续添加。


楼上实验室给我推荐的采购商的建议是:

CPU:2* 英特尔 XEON E5-2680V4/14 核 /28 线程 /2.4GHz-3.3GHz

内存:6* 32GB R-ECC DDR4 2666MHz 服务器内存(共有 24 个内存插槽,剩余 18 个)

硬盘:960G SATA 2.5 寸 企业级固态硬盘+4TB SATA 7.2K 3.5 寸 企业级机械硬盘(共有 24 个硬盘插槽,剩余 22 个)

电源:2000W 2+2 钛金级冗余电源,最大支持 8 块 GPU

显卡:4*NVIDIA Geforce RTX 2080Ti 11G (共有 8 个 GPU 插槽,剩余 4 个)


本人的一些不成熟的想法:SSD 是不是该上 nvme (或 M.2 的 nvme ),速度才是重点,空间是其次?以后有其他预算是扩容还是另外选购新机器?

5424 次点击
所在节点    硬件
32 条回复
aptx4689
2020-06-04 19:23:25 +08:00
显然空间才是最重要的,人这么多,要放的数据必然多
chenchangjv
2020-06-04 19:33:10 +08:00
建议硬盘再来一个 4TB 的,固态并不重要。
服务器的 SAS 盘性能不错,系统不太需要放到固态里面。对 NLP 来说的话,内存也足够大了,应该也不用直接跟硬盘交互数据,所以硬盘性能不太重要,容量比较重要。/home 盘最好是 4T 的,2TB 的盘不是很禁用,因为大家都习惯把东西放在 /home 。我们二十多人的组,三台服务器加起来硬盘也有 20T 了。显卡的话看你们的人数了,不跑 BERT 的话,一般一个人独占一张卡还是有必要的。其他的没啥可挑的。如果你要跑 BERT 之类的话,可能就不太能多人共用了。
xwander
2020-06-04 19:35:34 +08:00
@aptx4689 #1 但 sata 的和 nvme 的速度真的差好大··· ···,不过计算型任务也的确不怎么受存储速度左右。
Xbluer
2020-06-04 19:45:13 +08:00
存储什么的可以上 NAS 啊
chizuo
2020-06-04 19:48:53 +08:00
挺好的,如果还有预算的话建议内存再加一点。考虑到实验室多人使用,数据都要 load 到内存。
FaceBug
2020-06-04 20:23:14 +08:00
建议硬盘要 raid
idclight
2020-06-04 20:41:41 +08:00
SSD 换 6T sas 组 raid0,记得上 raid 卡。
johnchshen
2020-06-04 20:48:08 +08:00
cpu 是几年前的老款,很可能主板 CPU 都是洋垃圾回收。

内存要不 4 个,要不 8 个,不然多通道效果可能差,且内存频率未标。

硬盘没 raid1,raid5,速度慢且数据没安全。且简单标个企业级。奸商都直接给淘汰备品的。

硬盘容量太小,没 ssd cache,图形类机器学习的话,空间必然不够。

总结:换家有经验的有实力的供应商
bnuliujing
2020-06-04 21:57:40 +08:00
我们半年前也配了一台类似的设备,Supermicro 的机器,cpu 是 Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz * 2,,内存 256G,硬盘是 500G SSD (RAID 0) + 8T ( RAID 5 )如果没记错的话。XEON E5-2680V4 有点老了,换新一点的 cpu 吧,另外硬盘考虑扩容+RAID 。
Tink
2020-06-04 22:05:39 +08:00
内存加两个
redstar78kg
2020-06-04 23:00:53 +08:00
内存条用六个莫名其妙。
zhaidoudou123
2020-06-05 00:09:28 +08:00
Cpu 是不是有点旧了,硬盘要组 raid 吧
说起来这个配件其实指的是 Apple 的配件😂
gainsurier
2020-06-05 00:18:47 +08:00
好奇为啥不上 epyc
longbye0
2020-06-05 01:01:08 +08:00
容天?
ssd 很重要,对 cv 来说至少是的。
alphatoad
2020-06-05 01:09:43 +08:00
Nvme 占 pcie 通道啊,sata 便宜很多
superlc
2020-06-05 01:23:05 +08:00
NLP 不清楚,可能对 IO 要求低?我个人感觉 cv 方面 ssd 非常重要,严重影响速度。我们之前数据盘用 HDD,gpu 只有 70%左右的利用率,后来我插了块自己的 ssd 上去,四个 gpu 都是 99%利用率,爽到

而且内存需要这么大吗?我们 64G 基本用不完,你要是 HDD+大内存的话可以搞 ramdisk ?

我们去年 9 月买的 4 块 2080ti 才人民币大概 7.5w 左右,现在 10w 应该可以买更好的吧
superlc
2020-06-05 01:37:47 +08:00
@chizuo 应该是只有正在做 argumentation 的几个 batch 会临时在内存里,然后很快就挪到显存去了。如果显存只有 44G,内存应该不是瓶颈了,除非是做 ramdisk,把整个数据集放到内存里去
abcdabcd987
2020-06-05 01:38:32 +08:00
NLP 的话 2080Ti 显存是不是非常不够?
pC0oc4EbCSsJUy4W
2020-06-05 06:51:30 +08:00
如果追求 io 速度,单个 nvme 是不够的,可以组个数据服务器,如果 io 需求很大的话,比如组一个 ceph 节点(二手便宜志强也行,主要吃内存),64G 内存 64T HDD,io 上基本可以满足了。但是不太了解 io 需求多大
twl007
2020-06-05 07:31:10 +08:00
电源功率不够 一块卡基本都得 300w 左右全速跑 需要升级到 3000w 的电源 而且 CPU 太老了 不推介

另外你需要全上 SSD 能上 NVME 最好 拿 HDD 存训练集还行 跑训练就算了 需要存储的话可以单独采购一个做存储的机器

现在这个配置基本不适合你跑机器学习 另外把内存加到 256G 比较好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/678698

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX