有没有可能在内网服务器利用开源工具建一个类似百度的搜索引擎?能够搜索一下文档,网页之类的?
原始的数据大概有保存在本地服务器的 Markdown 文件、通过 Save Page WE 等插件从浏览器上保存的 html 网页文件、通过 css 采集插件采集下的 css 数据、其他格式如 txt 、doc 等可以以纯本本形式或通过其他方法能够读取到信息的(如有意义的中文、英文、代码段等)其他文本格式文件。
因为只要可堪一用的状态就可以了,用的人也不多,不用考虑啥高并发高负载之类的情况,这样的服务搭起来各位有啥好思路。
数据采集的部分我打算用 smb 等方法直接把服务器路径挂载到数据采集的各个终端,采集后通过 smb 同步到服务器,再由全文搜索引擎服务提供搜索服务就可以了。所以我觉得难点可能在这个全文搜索的服务上。
目前想到的最简便的思路就是加了中文分词器插件的 solr ,直接 docker 起一下服务,在官方的 demo 上运行就可以了。不过我没具体了解过 solr 具体是怎么个工作流程,是不是要像 ELK 那样要对输入的原始数据( md 、html 、txt 、doc 、py 、c 等)文件进行自己做一个清洗的规则,导入成符合 solr 服务要求的数据结构。还是说直接就可以对文件形式的文本进行全文搜索。
我知道 Windows 平台有些软件,比如 Archivarius 3000 这种也可以在一定程度上实现这样的功能,但因为有多端使用的需求还是想做在 Web 端上。其实就是一个团队知识库的形式吧。
各位老哥有无啥好思路 =w=
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.