Python joblib 在 n_jobs 大于 8 后几乎没有性能增益

电脑 CPU 为 AMD Ryzen 7 6800H ，8 核 16 进程

系统为 Windows 11

任务为对一组数据做分段 FFT ，因为每段 FFT 相互无关，所以将整段数据分为 n_jobs 块后每块并行计算，试图加速（具体代码不能公开，正在整理一份能复现的代码）。但是发现了奇怪的情况，保持其他参数不变，使用 parallel = Parallel(n_jobs=int(n_jobs)) ，当 n_jobs 大于 4 后，总体用时不会下降。

深入进程测试后发现每个进程内部的 for 循环内的代码拖慢了速度，代码如下（正常来说怎么测试每行代码的性能呢……望大佬指路！）：

tCost = []

for i in batchTask:
    tCost.append([time.time()])

    startTime = sampleDot[0] + i * step
    endTime = startTime + step

    splitSampleDot = sampleDot[
        np.where((sampleDot >= startTime) & (sampleDot < endTime))
    ]

    tCost[-1].append(time.time() - tCost[-1][0]) # ckpt t0

    splitData = np.array(list(zip(splitSampleDot, linearData(splitSampleDot))))

    tCost[-1].append(time.time() - tCost[-1][0]) # ckpt t1
    
    signal, powerDensity = getFftResult(
        splitData,
        splitSampleDot,
        float(sampleRate),
        0.0,
        0.8,
        float(minFreq),
    )

    tCost[-1].append(time.time() - tCost[-1][0]) # ckpt t2

    powerDensity[powerDensity < displayThreshold] = np.nan

    tCost[-1].append(time.time() - tCost[-1][0]) # ckpt t3

    fftDataList.append(powerDensity)
    fftFreqList.append(signal)

    fftStartTimeList.append(datetime.fromtimestamp(startTime))

    tCost[-1].append(time.time() - tCost[-1][0]) # ckpt t4

    realTimeDateObjList.append(
        mdates.date2num(np.vectorize(datetime.fromtimestamp)(splitSampleDot))
    )

    tCost[-1].append(time.time() - tCost[-1][0]) # ckpt t5

请问为什么会出现这种情况呢？有哪些办法能进一步提升性能呢？

NoOneNoBody

140 天前

windows
python 多进程还有很多消耗，基本上达不到 total/n 这么完美的效果
然后，你需要一些特殊的包，控制 CPU 亲和度，把闲置的 CPU 核分给进程
另外，我的经验是外部跑一些消耗的软件，如播放器、浏览器，python 多进程的效率会大幅降低，只有保留 CPU 专用，才能保持一个相对较高效率
还有内存，当内存用满，也是会大幅效率降低

如果数据不是十份庞大，多进程提升不大，数据庞大且内存足够，建议想办法跑 numba ，如果实在难以跑 numba ，也要尽量用 np/pd 的向量函数

你这里用了大量 append ，考虑一下换成一次生成的思路
或者改写方式，就是预置长度，所有元素为默认值，然后定位再赋值计算结果

JacHammer

140 天前

更像是 CPU 撞功耗/温度墙了。在占用 CPU 核心数不多时，每个核都会以较高频率和功率运行；等每个核心逐渐被占用时，所有的核心也会逐渐降低频率和功率，自然此时的单核性能会下降；如果在笔记本电脑这种对功耗/温度限制大的设备上运行则尤其如此。
当然还有楼上提到的各种非硬件开销等等，但我并不认为非硬件原因为主要因素。你可以试试在桌面或者服务器 CPU 等没有太大功率与温度限制的环境下进行相同测试，总用时统计曲线应该会更加线性。