分布式的计算平台方案选择

2023-12-01 11:57:35 +08:00
 wangpugod2003
一个研究型机构的很多研究员,需要提交 C/C++,java 或 python 写的算法,然后进行计算密集型的运算,得到结果。

目前都是在单机上进行,效率较低,通常一台服务器需要计算几小时甚至天,崩溃了不好维护,然后物理的资源又不够,闲置的时候又是浪费。

现在想搭建一个云平台,目的是方便这些人提交算法任务,属于计算密集型的分布式计算,能否利用多台云服务器,搭建一个分布式的计算平台(因为分布式是趋势,所以也有经费的考虑(*^_^*)),可以叠加利用 CPU ,内存,存储等。但是目前的分布式系统(mapreduce/spark)主要在数据密集型上发挥作用吧?这种计算密集型的是否有合适的方案?

是 hadoop + mapreduce ?还是 spark ,或者 k8s 呢?

大家帮忙给点意见,谢谢!
1238 次点击
所在节点    问与答
7 条回复
rrfeng
2023-12-01 15:44:22 +08:00
肯定是 k8s
但是问题是怎么拆分你的任务,除非你的计算框架自己支持分布式
jgh004
2023-12-01 15:46:42 +08:00
我记得天河还是哪个超算是开放的吧,你试试呗。
jgh004
2023-12-01 15:47:43 +08:00
http://www.cngrid.org/yhfw/zhsq1/ 试用免费,1 个月。
Philippa
2023-12-01 16:00:53 +08:00
k8s + ray
litguy
2023-12-02 15:31:18 +08:00
算法并行化的工作量不小
先单机挖掘挖掘瓶颈吧
就算上云,也可以 on-demand 方式临时租借高配置主机
集群并行计算要有个路径规划
dogcraft
2023-12-03 09:44:43 +08:00
slurm
joynvda
2023-12-03 10:29:09 +08:00
可考虑 MLOps 的框架,类似 Kubeflow 。虽然基于 k8s ,上层有为算法和学习优化的模块。
实现这个也不容易,运维的要会写代码。

至于多云,不要轻易尝试。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/996796

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX