Python 中的多线程 vs 多进程中嵌套多线程,哪一种进行 IO 操作的性能更高?

2018-03-09 10:56:32 +08:00
 Nick2VIPUser

假设一件任务的主要工作是处理网络 IO+读写文件 IO
使用 python 使用下面三种不同的多任务并行处理方案:

  1. 使用 threading 实现 30 个线程:
    threadingNum=30
  2. 使用 mulitprocess 实现 3 个的进程,每个进程实现 10 个线程:
    processing=3, threadingNum=10
  3. 使用 threading 实现 10 个线程,并手动在主机开三个进程:
    threadingNum=10, executionNum=3

问题来了:


(另外补充一下,我特别喜欢这个社区,觉得 V 社的老哥们都是真心在讨论问题和思考问题,每次在这里讨论问题都可以学到很多东西。如果我问问题方式有不恰当的地方和提问频率较高影响到大家的话,希望大家不吝指出!)

5249 次点击
所在节点    Python
16 条回复
zhengxiaowai
2018-03-09 11:13:29 +08:00
以下是个人见解:

1、Socket IO 的话明显是要用 async/await 这种异步 IO,然后开多进程启动效率最好,参考 Tornado 的部署方法

2、文件读写 IO,对于这种明显是更多的进程更有效果。但是还需要考虑的问题是 CPU 会满载、硬盘 IO 读写速度达到瓶颈,所以更好的方法是 换 CPU 和 更快硬盘。

3、分析快慢的方法,从了从直观的时间上看出了。更多需要相关的知识,比如线程进程原理可以任何一本教科书,具体的应用手法可以看 APUE 中的部分。

4、Python 处理网络 IO 各种异步库都有,FILE IO 的话没什么办法,只能用一些取巧的方法。

以上。
ioiogoo
2018-03-09 11:17:14 +08:00
大量网络 IO 和文件 IO 的话推荐 python >= 3.6 的 asyncio,原生支持异步操作,关键词 aiohttp
ipwx
2018-03-09 11:18:06 +08:00
asyncio
misaka19000
2018-03-09 12:00:55 +08:00
大量 IO 的话线程就行了
ai277014717
2018-03-09 12:05:51 +08:00
这三种情况的负载应该差不多,性能损失主要应该在上下文切换。应该从 CPU 多核利用率的角度来考虑。像 nodejs 好像可以配置根 CPU 核心数量一样的进程数来提高效率。python 么没听说过类似的功能。
sivacohan
2018-03-09 12:09:30 +08:00
网络 IO 还好说一点,文件 IO 一定程度上依赖于磁盘类型,碟片的话做顺序读写,SSD 的话做随机读写。另外磁盘本身的缓存和操作系统的缓存都会严重影响测试结果。
cloudyplain
2018-03-09 12:40:56 +08:00
python2: 进程+协程 gevent+uwsgi or gunicorn。
linyinma
2018-03-09 12:50:32 +08:00
什么时候多进程多线程和 IO 读写性能有关了?

你的需求是提高 IO 读写效率,思路应该是同步异步的问题,并行开发多进程 /多线程更多影响的进程上下文的切换带来的效率问题 /以及容错机制的考虑...
xpresslink
2018-03-09 13:21:47 +08:00
你要从问题瓶颈入手来解决而不是上来就拍脑袋用哪个方案。

你的需求不太明确,我也不了解你现有系统的架构和性能参数,所以没办法给你正确的建议。现在就能拍出具体建议的都是大神,请鄙视我。

用哪个方案和场景有关系。你要解决整体性能问题缩短运行时间,还是只是解决阻塞的问题。

另外你充分理解三种资源的特性,网络、CPU、磁盘

比如你的网络带宽 2M,要访问的服务器每个提供的下载带宽 1M。那你开两 2 线程要行了。开 30 线程完全没有用最多也就是 2M 了,这种情况下你优化磁盘写入性能不是扯么,除了扩容你的带宽你用什么也提高不了整体性能了。

如果是运算密集型的任务,比如数据要解压解密再编码,就要考虑开多进程利多核心,如果 CPU 负载很轻只是因为阻塞速度慢,你写成多进程代码要增加复杂度,白浪费精力。

磁盘是串行读写的,传统机械硬盘就一个磁头在那里寻道读写,成批量大块的连续写入方案才能提高性能,这就是为什么硬盘都有缓存。如果写入是瓶颈而你要想的不是开多个线程,而是在内存内开个更大缓存,弄个写入队列之类的。
Nick2VIPUser
2018-03-09 14:11:02 +08:00
@zhengxiaowai 谢谢老哥,分析很非常有条理,给我提供了很好的思路~
Nick2VIPUser
2018-03-09 14:21:17 +08:00
@ai277014717
@sivacohan
谢谢答案,想了一下应该是我钻牛角尖了,实际场景几乎不会太计较这三种情况吧~
Nick2VIPUser
2018-03-09 15:02:19 +08:00
@linyinma 嗯,是的,主要是考虑同步异步的问题,我是突然想到线程和进程的搭配问题钻了牛角尖,谢谢老哥~
Nick2VIPUser
2018-03-09 15:05:03 +08:00
@xpresslink 谢谢您,把网络、CPU、磁盘三种资源解释的很清楚,令人茅塞顿开。我想我应该从您说的这个角度去思考问题。
qs
2018-03-09 15:18:56 +08:00
看了半天没看到 1-2-3 这三种情况的对比和解释
vincenttone
2018-03-09 15:31:50 +08:00
我不太懂 python,但是这类语言从设计上来讲,cpu 密集的话,线程可能并不是一个好的选择。
但是如果是 IO 密集,根据你具体 IO 的使用、并发的数据使用形式、锁、生命周期等实际状况来选择进程、线程和异步 IO。
Nick2VIPUser
2018-03-09 16:49:12 +08:00
@qs 我也发现了,可能是这样比较意义不大吧~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/436438

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX