首页
注册
登录
NoobStone 最近的时间轴更新
NoobStone
V2EX 第 585672 号会员,加入于 2022-06-23 13:07:01 +08:00
NoobStone
提问
技术话题
好玩
工作信息
交易信息
城市相关
工作选择和润与不润
生活
•
NoobStone
•
2023-10-24 14:28:57 PM
• 最后回复来自
iawes
55
»
NoobStone 创建的更多主题
NoobStone 最近回复了
2022-06-29 12:27:58 +08:00
回复了
Richard14
创建的主题
›
问与答
›
深度学习训练跑庞大数据集(大于内存)载入的正确方式?
没怎么用过 pytorch ,你现在的方式:“换了一种方式是把数据集中到几个大文件中,然后 dataloader 选用顺序读取,这样每次就可以 load 很多到内存里不用频繁 IO ,但是缺点是只能顺序读取”。
感觉我之前的做法你可以参考,不一定行得通。
我用 keras 训练图像模型的时候,是把所有图片都存储到 HDF5 ,存进去之后,open 这个超大的 HDF5 文件,只是打开一个指针不会占用内存,可以按照切片语法来读取数据,感觉用起来特别像一个存储在硬盘的 numpy 矩阵。切片读取的话,索引要保证去重,升序。如果你想随机读取数据,需要自己做下处理。
比如 HDF5 是 arr ,长度 100 ,现在随机读取 6,5,8,9,6 ,那么需要改成 arr[5,6,8,9],然后自己展开。
»
NoobStone 创建的更多回复
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
1833 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms ·
UTC 16:17
·
PVG 00:17
·
LAX 08:17
·
JFK 11:17
Developed with
CodeLauncher
♥ Do have faith in what you're doing.