有没有可能在内网利用开源工具建一个类似百度的搜索引擎?

2018-03-05 10:57:39 +08:00
 jahan

有没有可能在内部网络利用开源工具建一个类似百度的搜索引擎?能够搜索一下文档,网页之类的? 有开源的可以部署吗?硬件都需要怎么配置?

4297 次点击
所在节点    程序员
13 条回复
2lecl
2018-03-05 11:14:59 +08:00
solr ?
jahan
2018-03-05 11:19:12 +08:00
刚查了一个雅虎的 Vespa。solr 和 vespa 是不是都没有爬虫呢?
yuyongji1987
2018-03-05 12:37:55 +08:00
elasticsearch
linyinma
2018-03-05 12:50:12 +08:00
[内网搭建一个搜索引擎] : 你提的的仅仅是搜索, 搜索引擎最重要的功能都是日常站点的收录,你内网有多少站点啊,这些站点被收录前提需要向站长平台提交站点,然后站长平台去抓取~~ 仅仅打个搜索引擎有什么意思额
jahan
2018-03-05 14:06:37 +08:00
@linyinma 不懂这个机制,所以弄了一个类似百度。就是想建一个整套的平台,不知道要做那些?或者有没有全开源的工具。
katsusan
2018-03-05 14:09:51 +08:00
问这个问题至少说明下检索的对象是什么,对象以什么形式存在好一点
likuku
2018-03-05 14:13:12 +08:00
搜互联网上的公开信息?搜局域网内企业 /自己保存的信息?(以前 google 有供个人下载使用的 桌面搜索软件)
likuku
2018-03-05 14:14:49 +08:00
对企业自己存储的文档资料进行检索,记得 IBM 很早就有成熟商业产品。
jahan
2018-03-05 14:20:43 +08:00
所搜特定的 10 几个网站。想做一个只针对这 10 几个网站的小型的百度。
simapple
2018-03-05 14:44:11 +08:00
es
jahan
2018-03-05 14:49:58 +08:00
@simapple 网站都不在本地,应该需要一个爬虫吧
coreos
2018-03-05 18:21:46 +08:00
可以做特定的网站地图,简单的爬虫
ddup
2020-01-12 21:10:20 +08:00
我的,归海数据桌面搜索,可以全文搜索,可以部署在内网然后通过浏览器访问,不过需要配置一下。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/434874

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX