满腔热血:在家里搭建一台 GPU 云服务共享给人工智能和大数据爱好者

2017-01-17 07:24:46 +08:00
 warmheartli

怀着一番热情想要研发一款开源的聊天机器人,但手中只有一台公司配的 mac ,每做一次训练要三四天的时间,想要购置一台高配 GPU 的台式机却囊中羞涩,租阿里云的 GPU 一小时收我 20 块钱,每用一个小时心里都在滴血,于是有了一个想法 http://www.shareditor.com/blogshow/?blogId=122

12609 次点击
所在节点    程序员
79 条回复
BlueCloud
2017-01-18 13:17:17 +08:00
@realpg 基本上都是满载。对性能要求挺高的。 GPU 起码要 Tesla P100 的级别了吧。
realpg
2017-01-18 13:23:16 +08:00
@BlueCloud
硬件满载可以预计

CPU GPU 同时满载是同时跑不同算法还是拆分同样任务?
想了解一下调度细节 还有对存储访问速度的要求
kklt007
2017-01-18 13:56:16 +08:00
@realpg 我们没有 gpu ,只在集群的 cpu 上跑。

数据并行或者任务并行都有相应的并行算法,不过数据并行相对简单一些。

核心可以简单理解为一个迭代优化的式子,目的是使参数收敛。就好像求抛物线的那个最小值,一点一点求梯度,一点一点逼近。

同步异步算法都有,太快了收敛性不好,收敛稳定的速度会很慢,所以有的时候需要具体问题具体分析,根据不同算法的特点进行平衡。

存储访问指的是内存还是硬盘?我们是都读到内存里的…… 内存肯定是越快越好,另外如果跨节点需要相互通信的话这个地方也容易成为瓶颈,所以我们用的 infiniband 。
ShiHou
2017-01-18 14:16:24 +08:00
@realpg 自己淘个二手 750ti 来跑一次就知道了。

训练时 gpu 满载, cpu 空闲,硬盘 IO 根据数据集而定。

一个显卡不能同时跑多个训练,所以众筹肯定不靠谱的。
realpg
2017-01-18 14:17:47 +08:00
@kklt007
现有常用 X86 架构下, RAM 最大也就 192G 了,不知道这些训练算法本身是否极吃内存。毕竟感觉这种学习数据源可能动不动就 80G 的
很多纯计算领域内存都是爆炸的利用,反而不太敢把原始数据都拉到内存里面去
只是粗略的想了解一下通用领域的这种性能的机器的实际开销模型

感觉看前面的意思 可能并不吃 CPU 只是非常吃 GPU
realpg
2017-01-18 14:20:20 +08:00
@ShiHou
单位硬件很多, Tesla 也不是不能借一块过来临时用用,还是基本一窍不通的问题,先了解了解模型,做做硬件结构设计的估算
zwh8800
2017-01-18 14:27:17 +08:00
@guoxu1231 关键放家里噪音问题是个大问题,我前两天把家里 660Ti 老电脑收拾出来组了个 raid 想做爬虫+舆情分析服务器用,结果因为噪音太大被女朋友否决了🙅
ShiHou
2017-01-18 14:47:06 +08:00
@realpg 从回复来看,你对 deep learning 这块了解不足。 学而不思则罔嘛,个人建议是不要想太多,找几个热门模型直接上手体验。
kklt007
2017-01-18 14:48:03 +08:00
@realpg 单结点 64G 内存,多结点就很多了,一部分一部分加载到内存也不是不可以,就像外部排序那样,不过应该避免等待读数据,我嫌麻烦一般都是直接全读进去的。

吃 CPU 跟吃 GPU 区别不大,吃的都是计算资源,只不过一般都不喜欢 CPU+GPU 混合编程,单独对比 CPU 和 GPU 可能 GPU 性价比好一些?不过我确实没用过 GPU ,说不准。

单位硬件多的话可以拿现有资源组个小集群试试,有没有 GPU 都能跑。
realpg
2017-01-18 14:57:38 +08:00
@ShiHou
@kklt007

我并不是想介入这个领域去搞点啥
只是想了解这块对硬件的需求和使用率等一般情况,有个初步认识
因为可以预见到未来会有需求 需要让我搭建这种环境去跑点啥东西
kklt007
2017-01-18 15:25:12 +08:00
@realpg 嗯,我对硬件的理解是性能好就跑的快一些,性能一般就跑的慢一些,同样需要迭代循环 10k 次,差别就在于哪个的单次循环快。另外核心多也相当于并行了。

我以前在 2010 年的惠普本上装 caffe 一样跑,现在在集群上跑无非快一些,也有土豪在单机上装四路泰坦或者组 GPU 集群的。都能跑,看你们是想跑的有多快。

另外机器学习的任务主要是训练模型的时间长,模型训练好了之后实际做分类预测之类的任务花的时间就不长了,资源利用率高不高主要看你们这方面的任务多不多。

所以我觉得如果不是专门搞这个方向的话,不是很有必要新买一堆 GPU 卡。
hadoop
2017-01-18 15:44:37 +08:00
@realpg 192G 是怎么得来的结论?
guoxu1231
2017-01-18 15:51:42 +08:00
@zwh8800 该除除灰了~
realpg
2017-01-18 16:02:24 +08:00
@hadoop
不是结论 是通行的不特意砸钱的服务器(一般是双路)基本最大都堆到 192G 不产生非线性成本
cpygui
2017-01-19 04:27:14 +08:00
aws g2.2 large 每小时 0.7usd
我在用这个
cpygui
2017-01-19 04:29:02 +08:00
如果是 gan 网络,我觉得硬件成本还要加
droiz
2017-01-19 10:41:43 +08:00
楼主的链接访问不了啊,是不已经被 v 友玩坏了
AsisA
2017-01-19 14:41:29 +08:00
Azure 现在也有 GPU 主机了, NC 系列是 K80 , NV 系列是 M60 ,其中最便宜的是 NC6 ,每月$493.83 ,平均下来每小时$0.686 , 6 核心 E5-2690v3 , 56G 内存, 380G SSD , 1 x K80
AsisA
2017-01-19 14:49:04 +08:00
[接上面]
最贵的是 NV24 , 24 核心 E5-2690v3 , 224G 内存, 1.44TB SSD , 4 x M60 ,每月$2172.85 ,平均每小时$3

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/335056

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX