RT ,
h5 = pd.HDFStore('test_c4.h5','a', complevel=4, complib='blosc')
for tpath in files[:5]:
code = tpath.split('\\')[-1][:-4]
data = pd.read_csv(tpath, encoding='gbk')
h5['min1'+code] = data
h5.close()
上面这个是代码,当 h5 文件未创建时,这段测试代码生成的 H5 文件大约是 5M 左右,但当重复执行这个代码,其内部的 keys 并未发生变化,每一个主键下的数据大小读出来之后发现也没有变化。
但是文件大小确实在增加,每次增加 1~2M 。难道是垃圾信息吗?好奇怪,第一次用 HDF5 。
============== 另外,这个HD5文件也太大了。测试中的前5个文件平均每个csv文件100k左右,存储为hdf5之后,增加了10倍?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.