看到一道面试题,多线程适合用来做大量文件的读取吗

2022-03-16 22:24:13 +08:00
 LYEHIZRF

去找磁盘下所有指定扩展名的文件,打开文件去找指定规则的内容,然后生成一个报表。 如果文件特别多要如何处理(考察多线程以及分布式)。

threading 和 multiprocessing 哪个更适合呢?

4049 次点击
所在节点    Python
13 条回复
jones2000
2022-03-16 22:30:41 +08:00
瓶颈不在读文件, 瓶颈是你合并报表程序的处理能力, 假如是分布式 1 次读几百万个文件,1s 发送 1T 的数据过来, 你生成报表的程序能顶的住吗?
antipro
2022-03-16 22:34:06 +08:00
哪类磁盘 1 秒读 1T ?我觉得读取本身不需要多线程。
sparky
2022-03-16 22:40:36 +08:00
@jones2000 加 mq 多消费者可以解决吧
zhouAndy
2022-03-16 22:43:32 +08:00
这个题考察的点 很基础 读文件的瓶颈在磁盘的 IO 上, 上多线程并不管用,,,文件读完后的处理上多线程才有意义
hallDrawnel
2022-03-16 23:05:07 +08:00
如果从多个磁盘读写会有差异
mhycy
2022-03-16 23:13:59 +08:00
需要看目标磁盘的结构决定是否多线程
如果是磁盘,单线程效率远高于多线程
软件本身可以多线程实现异步队列来做后续处理
但读取前端受限于 HDD 只能单线程操作,这是原理决定的

如果是 NVME ,多进程,或者异步 IO
mhycy
2022-03-16 23:14:43 +08:00
接上补充,SATA SSD 需要考虑并发性能,这货的承载力没有 NVME 盘那么高
ClericPy
2022-03-16 23:32:41 +08:00
说的有点像读取百万小碎文件时候的瓶颈如何解决的事情, 联想到现公司被一句 cat /xxxxx/xxxxxxxxx/**/* |gzip -d 处理二十万碎文件整的真叫死去活来了

多进程把 n 个核心都用上(而不是每个文件开一个进程, 那切换开销大到吓人)有点用, 多线程流式读文件应该也有点用毕竟从磁盘读入内存 IO 瓶颈也挺大. 脑子里蹦出 HDF5 / mmap / 零拷贝 啥的, 但是想不起来有没有关系
Donahue
2022-03-17 00:56:10 +08:00
@ClericPy 多线程也可以把 n 个核心都用上吧, 又不是 python 有 jit 锁
vance123
2022-03-17 01:02:46 +08:00
我有一次用 Python 处理百万个 html 文件,远远达不到 IO 瓶颈,解释性语言的开销太大了
westoy
2022-03-17 01:22:08 +08:00
@ClericPy

xargs -P N

@Donahue

python 躺着中了一枪, 它家 zlib 和 IO 都释放 GIL 的, 没锁.......
biubiuF
2022-03-17 12:40:23 +08:00
多线程查找,读取的话瓶颈在 io 单线程效率最高,数据处理再多线程,扇入扇出模型
Donahue
2022-03-17 19:08:47 +08:00
@westoy 哈哈哈哈我基础知识不牢固

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/840884

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX