对于站内搜索大家都是如何实现的?

2011-12-27 21:07:33 +08:00
 richiefans
数据量不大 貌似用数据库就可以了,比如博客啥的~
但数据量大 且需要有分词概念的时候 大家如何实现的?
如果在考虑一下商业化 比如权重,排名之类的又如何呢?

目前我在看solr 大家有什么好的方案么?
5730 次点击
所在节点    问与答
15 条回复
daqing
2011-12-27 21:18:33 +08:00
最近也在考虑这方面的东西,目前可以选择的: Solr, Coreseek, 用Lucene自己定制开发,Redis-search。

基本上大型网站,用Lucene定制开发的居多。专业搜索引擎如百度,有道等,应该是自己的技术了。
Julyyq
2011-12-27 21:19:50 +08:00
直接用DW实现的菜鸟飘过~
delectate
2011-12-27 21:55:22 +08:00
用google custom
richiefans
2011-12-27 21:58:33 +08:00
@daqing 看了一下Coreseek是基于Sphinx 貌似也还行 Solr配置起来比较简单 先把它整整看 不知道用哪个中文分词比较好 imdict貌似不支持自定义词库
daqing
2011-12-27 22:42:09 +08:00
meecle
2011-12-27 22:47:59 +08:00
刚才到GNU.org去搜索软件,发现Hyper Estraier : a full-text search system for communities, 这个可以,更多的去http://fallabs.com/ 看看!
meecle
2011-12-27 22:49:15 +08:00
www.gnu.org 也再用这个,参考这里: http://www.gnu.org/cgi-bin/estseek.cgi
Blask
2011-12-28 00:20:13 +08:00
google custom 不错啊.
Tianpu
2011-12-28 01:04:17 +08:00
@richiefans 记得给我小红花 www.xunsearch.com
xiangjian
2012-01-09 18:38:44 +08:00
有没有对 pdf,word,PPT ,支持比较好的 全文搜索。中文分词最好可以自定义
dreampuf
2012-01-09 20:38:01 +08:00
document database 自己随意控制.
小的业务需求也很容易实现.
tuzi
2012-06-27 22:53:00 +08:00
@Tianpu 似乎不错,谢谢
INT21H
2012-06-27 23:24:22 +08:00
啊 分词用mmseg就蛮好
yandy
2014-08-25 21:54:37 +08:00
可以用一些 第三方的搜索服务,有 RESTful 的 API。例如国内有一家做的不错的 http://tinysou.com。既可以用API,又可以基于爬虫。看到 teahour.fm 就在用他们的服务。看到对中文的支持挺好的,还可以拼音搜索,拼音补全。
kwklover
2016-01-27 09:12:23 +08:00
一般大型的,会选用 JAVA 平台的 ES 或 SOLR ,其实底层都是基于 LUCENE ,特定是定制型强大,开发量和维护量也不小;
用 MYSQL 数据库可能会喜欢搭配 Sphinx 或基于它的衍生品,整合的比较密集,配置好了,查询用的类 SQL 语句,还是比较方便的,就是中文分词不太好,或者可定制性差些,性能还是挺高的;
WINDOWS 平台下中小草根站长可能比较喜欢选用搜易站内搜索引擎,基本不用开发了。点点鼠标就可以创建一个站内搜索。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/24472

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX