高性能计算: RoCE v2 vs. InfiniBand 网络该怎么选?

2022-09-18 14:26:03 +08:00
 ppj

RoCE 规范在以太网上实现了 RDMA 功能,ROCE 需要无损网络,RoCE 的主要优势在于它的延迟较低,因此可提高网络利用率;同时它可避开 TCP/IP 并采用硬件卸载,因此 CPU 利用率也较低。

高性能计算:RoCE v2 vs. InfiniBand 网络该怎么选

2822 次点击
所在节点    Linux
13 条回复
ea3ba5c0
2022-09-18 16:43:44 +08:00
泼点冷水,这文章写的太水了。
都 2022 年了,还怎么选。roce v2 早就占满了各个机房。
A01514035
2022-09-18 19:13:46 +08:00
第一次在 V2 看到了 RDMA 。
webcape233
2022-09-18 19:17:55 +08:00
hpc 里面基本都是 ib ,但是 ib 太贵了。
abbottcn
2022-09-18 23:31:04 +08:00
中文读上去有点怪,
感觉像机器翻译的 RHEL 技术手册.

不说十年前, 至少 8 年前, 我们机房的机器, 就在用 IB 了.
High bandwidth and low latency, 这是关键, 当然还有高并发 I/O.
应用很简单, 要么是一个任务使用上百个 MPI, 这种任务一般三五天; 要么就是一个用户, 一下发 2000 到 1 万个单 CPU 核心的计算任务, 每一个可能跑十来分钟.

IB 是标配.

现在看到好多小伙伴咸鱼搞 56G IB 网卡,
拿回家在以太网模式玩集群并行计算, 好搞笑.
ppj
2022-09-19 09:39:14 +08:00
@abbottcn RoCE v2 已经广泛应用,只是目前国内超算 /高算的领导喜欢听人忽悠搞政绩而已。
abbottcn
2022-09-19 09:50:14 +08:00
@ppj 简单测试过 VASP.
E5 2686v4 + 10GbE, 使用 RDMA 之后,
双节点并行(72 个物理核心), 纯 MPI,
加速效率 0.8 (理论上, 如果 36 核心需要 2 小时; 那么使用 72 核心应该是 1 小时), 已经算不错了.

而使用 IB, 多达 8 个节点, 线性效率依旧能保持在 0.85 左右(测试数据来自挪威的一个实验室).

如果使用更多节点的时候, 比如 3 个节点, 4 个节点, 以太网+RDMA, 效果很差劲.
主要的问题是 high latency.

VASP MPI 多核心并行, MPI Rank 之间频繁交换数据, 不过数据包很小.
所以, 对于这类 MPI 并行, 大规模并行, latency 还是很重要的.

未测试其他应用, 不敢妄加评论 RoCE 实际效果.
Defined
2022-09-19 10:39:12 +08:00
看钱啊,有钱整套网络设备都换掉,肯定是 IB 好啊,不管从性能还是稳定性考虑。
spacezip
2022-09-19 12:26:30 +08:00
稳定性 肯定 ib
前两年看人折腾过 intel opa 各种问题硬着头皮上
ea3ba5c0
2022-09-19 13:10:33 +08:00
@abbottcn RoCE v2 最重要的是流控,估计是流控没做好。
ppj
2022-09-19 13:11:22 +08:00
@abbottcn 分布式并行存储用的什么?小文件并行计算,存储软件选择也是影响 latency 的因素。
ea3ba5c0
2022-09-19 13:12:17 +08:00
@Defined 不觉得 IB 好,这种专有设备,机房都要特殊布线,出问题不好排查。
RoCE v2 走以太网,更好的网络互联。
abbottcn
2022-09-19 14:27:01 +08:00
@ppj 我自己的集群,就四个节点,要什么高大上的并行文件系统,分布式存储?
直接 NVMe RAID0 搞定。整个系统满负荷运行时,可以做到 CPU 99%被用户利用。稍有 iowait 占比。

之前的浪潮,曙光产品,不晓得他们用啥做存储,有点卡。

我只是个外行。只晓得怎么让我用过的程序,
在集群上,跑得更快更稳定。其他不懂。

我只会用 netdata 分析系统负载压力,其他不会。

[容易忽略的性能短板] https://b23.tv/EnbjGkw
lustyone
2022-09-19 22:28:24 +08:00
@ea3ba5c0 2022 年了,ib 可以稳定支撑 60k 节点规模网络稳定运行。至于 roce 如果你是业内人员的话应该知道没有一个集群可以稳定运行超过 1k 个节点,或者堆人力去运维或者损失很多带宽效率。至于国内的 harp 等是另外一个故事不展开。

不要想当然认为全球的高性能计算专家都在黑钱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/881021

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX