一个文件夹下有百万个文件，怎么读取？

2017-05-05 19:45:10 +08:00

dbj1991

之前把爬虫爬取的源文件都存在了一个文件夹，有一百多万个，现在要读取，直接用 os.walk(path) 这种方式，几个小时了还卡在这一步，有没有其他的方式可以快速的读取

5484 次点击

所在节点

Python

14 条回复

cheneydog

2017-05-05 19:52:58 +08:00

ls /xxx >list

sheep3

2017-05-05 19:55:13 +08:00

```
import subprocess
cat = subprocess.Popen(["ll",], stdout=subprocess.PIPE)
for line in cat.stdout:
print line
```

dsg001

2017-05-05 20:24:59 +08:00

```
import glob
for file in glob.iglob('path'):
print(file)
'''

minbaby

2017-05-05 20:35:26 +08:00

一看楼上就是没有遇到过几百万文件在一个目录的情况，之前遇到过（因为 crontab 用了 wget 导致的），用 ls 命令已经不好使了，这个时候只能通过文件名字的规律来处理了，比如文件名是五位数字，可以试试 ls 11* 这种方式缩小每次读取的文件数量

rrfeng

2017-05-05 20:38:43 +08:00

ls -U

Osk

2017-05-05 21:40:31 +08:00

$ time ls -U | wc -l
5973243

real 0m2.330s
user 0m1.743s
sys 0m0.790s

不用-U 要 24 秒多

privil

2017-05-05 21:46:47 +08:00

@Osk 正解，U 参数！我用 ls -U 删了两千万文件……

Ouyangan

2017-05-05 21:55:18 +08:00

100 万 , 真刺激

lxf1992521

2017-05-05 22:07:10 +08:00

find > a 生成索引，在使用 python 去处理一个几百万行的文本即可。

dbj1991

2017-05-06 06:59:21 +08:00

@Osk @minbaby @lxf1992521 那如果是在 windows 下呢

minbaby

2017-05-06 14:14:01 +08:00

@dbj1991 win 下就不知道了，没经历过

ihciah

2017-05-06 22:03:06 +08:00

想起某童鞋经历过的 inode 用完的情况。。。。

beordle

2017-05-07 00:57:39 +08:00

@Osk 学习了

HMSQQbA

2017-06-01 01:43:26 +08:00

@cheneydog 这样会多出一项

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/359429

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.