各位彦祖,请教一下。
我本地有大量零碎文件,大概是 csv ,xlsx ,pdf ,eml ,html 之类的,大部分是文本,但是内部格式都不同。
文件大概 4T ,可预见的未来,还会增加。
我现在是使用 anytxt 来检索,但是 2T 之后检索速度就下降了,有时候一次检索要等几十秒,而且高级检索不支持正则,有些刁钻点的检索就不行了。
也试了一下 dnGrep ,支持正则搜索功能强大,但是不预建索引,每次检索要搜索一次,而且中文 pdf 好像要弄插件,也没有弄了。
也稍微看了下 Elasticsearch ,但是感觉数据导入有点麻烦。
请问下,是否有更好的方法来解决这个问题?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.