有没有利用开源组件建立一个 Web 端的本地搜索引擎？

Champa9ne

2022-11-07 03:48:33 +08:00

标题应该是有没有可能利用开源组件建立一个 Web 端的本地搜索引擎

居然不能修改标题的嘛，才发现改标题的时候删多了两个字 QUQ

lxcForPHP

2022-11-07 08:46:18 +08:00

最近我也一直在寻找类似的开源软件，本地的笔记和文档越来越多，之前一直用 grep 来查找，感觉不是很方便

shuxhan

2022-11-07 08:58:39 +08:00

等待推荐，最近我也有一个本地文件搜索的需求，目前在用的是 everything ，但是使用起来不是很舒服，有没有其他类似的。

zhyl

2022-11-07 09:40:02 +08:00

DocFetcher Server

thetbw

2022-11-07 10:00:12 +08:00

我之前也有发过一个类似的 https://www.v2ex.com/t/810243

然后有个人私我说了一下他正在做的一个项目，并不是完全满足
https://hamsterbase.com

还有我自己找到的类似的
https://raindrop.io/
https://cubox.pro/
https://github.com/go-shiori/shiori

LengthMin

2022-11-07 10:46:57 +08:00

https://docs.meilisearch.com/

cy1027

2022-11-07 10:54:47 +08:00

本地搜索为什么要搞 web 端，软件不就够了么

cy1027

2022-11-07 10:56:37 +08:00

搞个云文档，整个团队文档不就行了，直接用软件的搜索功能，gitee 也可以实现吧

menghechina

2022-11-07 11:53:14 +08:00

https://github.com/dadoonet/fscrawler 可以看一下这个

hamsterbase

2022-11-07 13:13:35 +08:00

看看我开发的？

完全离线 + 本地部署 + 开源 API SDK

有全文搜索，支持 mhtml ，html 等常见的网页格式。
支持原文批注。

hamsterbase

2022-11-07 13:14:46 +08:00

@thetbw

能说一下那些地方不满足吗？ hamsterbase 提供了 API ，可以在上面扩展个性化需求。

xiubin

2022-11-07 13:22:51 +08:00

Web 端搜本地？那不得给浏览器开全盘访问权限了么？为啥不用单独的软件搜呢，比走浏览器的性能可能还好一点

Champa9ne

2022-11-07 13:26:18 +08:00

@cy1027
@xiubin

不是 Web 端搜本地，所有资料都是放在服务器上的，只是本地的 smb 会被挂载到服务器搜索目录的一个子目录里。smb 只是一个快捷上传资料的方式。

就类似于服务端的索引文件夹里有很多个路径，会被不同成员挂载 smb ，成员在本地 smb 只有自己上传的那部分资料，但是在服务器看来就是他有很多成员上传的存储在不同文件夹里的资料。

然后全文搜索引擎会对这个文件夹里的资料进行整体的搜索

Champa9ne

2022-11-07 13:31:17 +08:00

主要是资料的类型是多样的，有离线保存的 html 、有 md 文件、有 txt 、doc 、甚至有源代码文件（不是工程结构的文件，类似于一些小型的脚本），所以用云文档、团队文档这种方式来管理就很难，毕竟要人顺手从网页插件下载个网页自动通过 smb 上传到服务器容易，但是要别人手动拉网页，在粘贴到云文档这个操作就有点麻烦了。

Champa9ne

2022-11-07 13:54:57 +08:00

各位大大推荐的有的是 Windows 端上的可执行应用，有的是仅基于网页书签的全文搜索。

@menghechina @LengthMin 感觉这两位老哥推荐的 meilisearch 和 fscrawler 比较符合能在 Web 端搜索服务器资料库里各种不同文件格式资料中的内容这个需求，感觉主要还是要看看对中文的支持如何，后期搭起来给兄弟们试试水。=w=

用过的老哥也可以说下测评。 =w=

thetbw

2022-11-07 14:06:53 +08:00

@hamsterbase 我更倾向于我只提供 url ，然后服务器对这个 url 对应网页进行存档。例如 Wayback Machine 这个 chrome 插件，可以保存网站的历史。同时整个书签的功能。

不过，话说在最后，我对这些功能的需求并不是很强烈，其实没有也行，对于我重要的数据，我会自己写在笔记里，而不重要的东西，是否存在已经不重要了。说白了我觉得这样一个产品是蛮好，但是真给我用的话，我不一定会用

tool2d

2022-11-07 14:28:54 +08:00

@thetbw 你们俩说的不是一个东西吧。楼主要组建内部团队 wiki ，你说的是浏览器书签，好像不太一样。

edw1n

2022-11-07 15:38:14 +08:00

@Champa9ne #13
要不你试试 Everything ？服务器上启动 Everything 的 ETP/FTP Server 功能，然后本地的 Everything 连接到这个服务器。使用高级搜索窗口去过滤文档内容。

microxiaoxiao

2022-11-07 15:45:29 +08:00

Elasticsearch 应该可以呀

hamsterbase

2022-11-07 15:46:08 +08:00

@Champa9ne 可以看看 devonthink