求个人 wiki 。请教有没有适合快速搜索大量文本文件的软件?

2013-04-03 20:55:45 +08:00
 gdm
如题,有上千个纯中文 txt ,加起来大概 700mb ,未来会继续增加。并且,希望出搜索结果时能看到文本文档的标题。
本人 windows 用户,需要 windows 下的方案,至少是 cygwin 能跑的方案。

考虑过 vimwiki ,但是命令繁琐,搜索还要切输入法。而且对付这么多文档,速度也不行了。
考虑过放 jekyll ,但想想一来 google 的蜘蛛可能不抓,二来这么多东西放一个 repo 万一 github 封号咋办,这不白传了么……
考虑过 google 桌面搜索之类,但据说索引慢,而且希望有稍微便携一点的手段。
考虑过搭建 mediawiki ,这方案解决了搜索和显示的问题,但这么大的数据库一台破电脑能跑得动么?之前用 wordpress 弄个人小站就曾经被凌乱无比的数据库恶心过,对这类方案比较小心。
考虑过 stardict/goldendict ,但是辞典制作起来好像不是那么轻松,而且不方便以后添加。
考虑过 evernote ,慢,做笔记一直 onenote ,从不搜笔记,没比对过笔记软件的搜索功能。

说一下为什么需要吧。原来有个百度国学,很简陋,书也少,但挺方便。后来可能这项目不赚钱,悄无声息的砍掉了。打算自建一个类似的东西。
总之需求不高:搜索、便于增删、速度。界面丑无所谓,也不需要图片和富文本。对这方面不大了解,求推荐。
6793 次点击
所在节点    问与答
22 条回复
clino
2013-04-03 21:07:30 +08:00
嫌evernote慢的话,试试它的中国版本 yinxiang.com ?
Errpt
2013-04-03 21:25:08 +08:00
试试mybase这个软件,效率高。
gdm
2013-04-03 21:30:38 +08:00
@clino 那个, evenote 慢不是说他的同步慢,而是软件本身比较慢的感觉,尝试一个小文件夹,隔了蛮久才导进去, 700mb 不知道要搞多久。
话说, 700mb 的原始数据不大可能放在笔记软件去同步。而且有用 evernote 的朋友说, evenote 搜中文经常不太灵光,可能是因为中文没有空格分词。
笔记软件还是比较适合做个人化整理,我的需求偏向于收藏和搜索,基本上不整理,或者说我太依赖文本编辑器,脱离了文本编辑器基本上不愿做任何编辑,所以就不整理了……
gdm
2013-04-03 21:52:38 +08:00
@Errpt 哗,这个软件还有人记得哦。
其实也试过,手工贴了大约 9mb 的资料进去,结果一个词搜索就用了大约 8 秒, 700mb 的话大概会比较吃力,就没继续尝试。
另外不知为什么使用他的导入成子条目功能导入东西会乱码?而且是全都乱码,不管是 gb 还是 utf8 ……好郁闷

果然好的搜索引擎不是说来就来的。
在本站看到个 dokuwiki ,一会搭个 php 环境试试看~
amyhyde
2013-04-03 21:53:17 +08:00
试试drupal
yibie
2013-04-04 00:31:12 +08:00
建议使用 Emacs+Org-mode 的解决方案:

- 完全兼容纯文本
- 配合插件可全局文本搜索,效率不错
- Org-mode 使用简单,完全适合当做本地维基使用

-----

如果以上都觉得繁琐,那么只有 WikidPad、Zim 才能满足你了。
mkeith
2013-04-04 01:35:37 +08:00
Google drive
Livid
2013-04-04 01:54:51 +08:00
gdm
2013-04-04 09:52:00 +08:00
@amyhyde 配置了一下不会弄导入,这个不是 wp 那种傻瓜 cms ,看来需要认真研究一下。
@yibie Emacs+Org-mode 不是繁琐,而是学习曲线陡直……有时间学习一下。
@mkeith gdrive 似乎只找到文件,不高亮包含关键词的句子。也许咱打开的方式不对,再研究下。
@Livid 虽然不懂是什么,不过看起来很高深的样子。装一下 java 试试看。
laoyang945
2013-04-04 10:51:33 +08:00
既然重点是搜索,还是纯文本,那用windows 自带搜索不就得了
而且你不是用onenote么,里面的搜索一样是windows自带的
Betty
2013-04-04 19:54:06 +08:00
只是个人用,不用放到网上的话,用 EmEditor,文件都扔在一个文件夹下面,选择“在文件夹中查找”。应该是最完美满足楼主要求的。
几百兆的东西,我觉得用 PHP、数据库什么的一定会更慢吧……
gdm
2013-04-06 03:35:27 +08:00
感谢大家~

@laoyang945
自带微软家在搜索方面一向不太在行,自带搜索很慢, onenote 搜个 70mb 的无图数据库已经相当够呛了。
@Betty
EmEditor 是我现在正在使用的文本编辑器,非常喜欢,现在暂时还用着他的搜索。
但是 EmEditor 处理这堆 700mb 的数据库确实比较吃力,搜索经常经历 60 秒以上。用数据库应该会快,比如辞典软件,一般来说数据增加并不降低其搜索速度,不管数据库多大都一样快。但是辞典是比较固定的东西,而我的数据还在增加(这几天又增加了 30mb ),所以没法用辞典……
clino
2013-04-06 20:33:31 +08:00
@gdm 没有仔细看你说的,其实你这个东东用桌面搜索就行了
我自己的经验是建议你用百度的桌面搜索,因为百度的支持用白名单的方式设置目录的索引,这样不会在整个电脑范围内做索引,你可以配置成只索引你的这个文本文件的目录,这样索引其实是很快的,即使是第一次,后面的增量索引就更不用说了
batfree
2013-04-07 09:26:45 +08:00
opengrok 试试,虽然是索引代码的。但对于文件应该没有问题。 我们几个G的Android源码就用它索引的,搜索速度非常快。
Semidio
2013-04-07 17:22:24 +08:00
如果不需要检索文件内容的话首推Everything。
否则,可以试试DocFetcher,我测试了一下,一个378M的全TXT文件夹,文件数647,初次建立索引耗时2分15秒,之后关闭重开(貌似初次建立索引之后无法直接打开的样子),搜索关键词基本都是秒出,打开文件检索具体内容的时候根据不同大小的文件需要几秒钟,具体速度和Notepad差不多。
Miaoz
2013-04-07 17:35:17 +08:00
@gdm 楼主,也许你需要这个。
http://wenxian.fanren8.com/
yeshang
2013-04-07 19:17:20 +08:00
x-beta.info 里面很多文本软件, 有符合你的
yeshang
2013-04-07 19:17:48 +08:00
gdm
2013-04-15 09:27:38 +08:00
@clino 百度桌面搜索因为是国产,我怕他没节操去搜我未指定文件夹……我是胆小鬼。不过是个不错的选项。
@batfree Windows 好像有点难装,一会切到 suse 试试看。
@Semidio 很好!搜索速度非常快!
@Miaoz 竟然有人做了这个,真是泪流满面啊!
@yeshang 挺怀念这站,可惜作者越来越文艺,经常不讲软件而是讲一些幼稚的感言……

感谢大家,总结一下个人的选择。
http://wenxian.fanren8.com/ 应付日常搜索。
当以上方法无果时,使用 DocFetcher 搜索本地文件。
善哉!
weakish
2013-08-30 21:21:25 +08:00
@gdm 「考虑过放 jekyll ,但想想一来 google 的蜘蛛可能不抓,二来这么多东西放一个 repo 万一 github 封号咋办,这不白传了么……」

現在 gitcafe.com 也提供 jekyll 服務了,可以專門註冊一個賬號傳這個 repo。
700多M txt,如果轉成git repo的話,文本的壓縮率應該很高,所以repo的大小應該小於 gitcafe 的免費額度 512M 吧。

然後 京東的git託管支持一鍵搬家 https://code.jd.com/busi/project/addProject?toMove=moveFlag

可以讓它幫妳備份,避免自己重複上傳。

如果有意分享發佈這些文本文件,而gitcafe不夠用的話,我手頭的VPS空間有很多剩餘,可以放妳的站點。(初步打算基於 git repo,用jekyll或者pelican轉成網站。這樣妳如果要更新內容的話,只要git push就可以了。如果用戶要對文本勘誤的話,也可以很方便地發patch或者pull request。)至於google抓取的話,可以給google提交sitemap,確保google不抓漏。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/64875

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX