如何提升程序抢占内存带宽的能力？

本人是做科学计算的，简单来说就是解几百万几千万的大型稀疏矩阵。计算的性质决定了 Cache 命中率不会高。实际使用中，CPU 几乎很难达到瓶颈，运行速度基本与系统总内存带宽成正比。

最近在用超算的时候发现一个非常棘手的问题：内存带宽抢不过那些炼丹的。例如一台双路服务器有 24 个核，实际分配是 22 个核心给 CPU 任务，2 个核心给 GPU 任务。然而炼丹的抢内存带宽效率奇高。假如那台服务器碰巧有人在炼丹，我的计算速度几乎会减半，也就是说我用 22 个核心抢占内存带宽的速度和炼丹的 2 个核心差不多。但是超算的“价格”是按 CPU 核心 x 时间计算的，我消耗了 22 份的资源却只得到了 12 份的性能，实在是不太公平。

我这里没有贬低炼丹的意思，GPU 计算本身没有问题，我只是想提升自己程序抢占内存带宽的能力，得到我付出的“价格”应得的性能。

dangyuluo

2021-03-07 23:24:11 +08:00

好玩，不过应该不好办，毕竟是按核心卖而不是按内存带宽卖的。不过这不是个零和游戏，二十个负核游戏。虽然 wakuang 得到了更多内存带宽，但是并没有得到更多的算力，而你损失了算力。

updateing

2021-03-07 23:52:18 +08:00

Intel RDT 提供了使用软件对 cache 和内存带宽做分配的功能，但我不了解 GPU 用 DMA 抢带宽能否一起限制。或许可以看看： https://www.intel.cn/content/www/cn/zh/architecture-and-technology/resource-director-technology.html

xuegy

2021-03-08 00:22:47 +08:00

@czfy 价格我就不知道了，人家买都是有技术支持的整机，硬件成本只是其中一部分。我只能说如果想自己攒一台工作站的话价格其实差不多，反正大头在内存上。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/759249

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.