请教如何高效实现从大量文本里随机读一行文字这样的任务? 希望充分利用内存

想做一个这么一个东西:
有一堆纯文本文件,小说之类的.
随机的挑一个小说,随机的挑一段,随机的挑一句.
呈现这一句.
如果读者感兴趣,再打开这一段.更感兴趣,再看全文.
挑战在于:
文本库会随时增加.
为了方便,增加文本库的时候就是上传文本文件.
假设文本库非常大,可以上 T.
如果每次都从磁盘读取文件,没有充分利用内存.
那么希望有个自动的缓存策略.不知道有什么框架或者工具可以用?

zado

2015-09-21 07:57:56 +08:00

反正都是随机的，你可以预先随机读取一大批集中存放一个文件里，以后每次都是读取这个文件。

mfhh

2015-09-21 08:09:22 +08:00

@Andiry 谢谢.我也刚刚想到. 以前有 redis 只存储小的键值对. 有点思维定势了. redis 好像有个 diskstore?

maddemon

2015-09-21 08:47:26 +08:00

可以这样吗？
缓存所有小说的文本的行数，需要展现哪一行就读取哪一行。
因为这个需求随机性太大，不可能缓存所有的小说，某一行被读取过，再次展现的时候如果还会展现这段话（维持一定时间）可以还存下来这行，否则每次随机的话，这一行就应该被废弃。

如果能够预先知道需要展现哪部小说，可以预先缓存这部小说。

LeonT

2015-09-21 09:01:14 +08:00

性能主要是消耗在寻找文件上面，所以，将文件以及文件大小的列表存放在内存里面，需要的时候随机选择一个文件（根据大小加权随机，这样的话大的文件选择的概率会高，因为行数多），然后直接去硬盘随机读取一块数据（用 seek 调用，读取 4K ，一般就是块大小），把里面的完整的一行取出来就行了吧。

如果磁盘读取的时候某个块读取的多，然后内存够大，操作系统会自动做缓存的。

mengzhuo

2015-09-21 22:00:49 +08:00

很简单，连数据库都不需要啊！！！

直接按上传的文件 hash 出一个值，保存一个索引文件 map[文件 hash]行数在磁盘上

这时应该长这样
------index
|---00/....
|---01/....

(火狐就是这么实现 cache 的)

按随机数出一个文件，再随机出一行
有概率出一段

然后读取并返回

mfhh

2015-09-22 16:40:35 +08:00

谢谢大家. 先做了个原型
http://one.treenote.net/

其实随机的要求没有很高. 所以差不多的办法都可以. 考虑的重点是作为 web 应用,不希望每次请求都要读硬盘. 我初步考虑的方案是做 2 重随机. 一个慢随机,是每累积多少次访问就去磁盘随机 load 一些大内容块到内存中. 一个快随机,每次请求都从内存中随机的取出小内容块.

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/222313

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.