1
mckelvin 2013-12-28 00:46:29 +08:00
难得看到有帖子在讨论hdf5~
之前https://github.com/tb2332/MSongsDB/blob/master/PythonSrc/hdf5_utils.py 这个项目中第一次看到h5py,貌似强大但是蛮复杂,很难去维护结构。最后我的需求还是通过手工封装python自带的shelve来解决了。工程界似乎很少在生产环境中使用hdf5。 分布式环境下很难做到实时的一致性,像moosefs这种文件系统甚至都不支持fcntl锁。并发地读写对数据库端压力也不小。 MapReduce的场景下最好还是避免随机读写,先一次性dump出来,分发到各个节点Map,完了再一次性写回去。比如Map完毕数据写入redis,可以collect回来,通过mass-insert(http://redis.io/topics/mass-insert)批量写入,避免在Map操作的时候一次次set。其他数据库应该也有类似的方案。曾经我发现过一个支持高并发随机读写的结构完善的数据库,后来我就醒了。 |