求教， 1000 万个总计 30GB 的文件，单机存储，渴望随机读取速度快，怎么存比较好？

用什么数据库或系统或？

请教

dqh3000

2018-03-22 03:50:08 +08:00

可以认为是 1000 万个 json，但是并不需要查询内容

可以接受 KV 感觉的读取，每个文件可以有 uuid

dqh3000

2018-03-22 04:19:13 +08:00

@binux 随机读写速度相对不会因为数据太多，性能下降太高就行

murmur

2018-03-22 07:57:43 +08:00

30g 随便买个 intel 的高速 ssd 就可以了啊

paranoiagu

2018-03-22 07:59:23 +08:00

这么多文件，参考 ccache 的存储方式。

XSugar

2018-03-22 08:01:32 +08:00

文件按文件名划分区块？索引会不会好些

shakoon

2018-03-22 08:59:33 +08:00

上世纪末本世纪初这样的数据库存储方式在大型机里可是主流的呢，好多银行在用，VSAM 了解一下 →_→

Mutoo

2018-03-22 10:13:41 +08:00

taobao 当初为了实现高性能小文件的读取，自己搞了一套 tfs，后来还做成分布式的。你可以了解一下
https://github.com/alibaba/tfs

tigiyj

2018-03-22 10:39:57 +08:00

最近正好我这类问题同问,我是 4000 万文件,将近 500g,

tigiyj

2018-03-22 10:40:34 +08:00

最近正好遇到这类问题同问,我是 4000 万文件,将近 500g,

dqh3000

2018-03-22 10:46:43 +08:00

如果把所有文件都对齐到一个统一大小，算是拿空间换时间，不知道会不会好一点？

换文件系统这件事儿实在是，并不容易……

sunny352787

2018-03-22 11:26:54 +08:00

我觉得还是扔库里先试试，常用的 redis、mongoDB，甚至 mysql 的读取性能其实应付一般的需求都可以，扔进去测试一下看看先，这么问没有统一答案的，而且随机读取可能没你想象的那么慢

dqh3000

2018-03-22 11:33:52 +08:00

@sunny352787

现在在 Postgresql 里

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.