有没有哪位 V 友用 lucene 做上亿数据量的搜索的?

2018-09-30 10:55:34 +08:00
 kwklover
最好是用 lucene.net 构建的,如何处理上亿的数据量?

不要推荐 ES,SOLR,因为 ES,SOLR 底层也是基于 Lucene,所以我想自己基于 Lucene 搭建一个支持大数据量的搜索系统。
3515 次点击
所在节点    程序员
12 条回复
DCjanus
2018-09-30 12:46:47 +08:00
你是准备自己造轮子取代 ES ?
kwklover
2018-09-30 13:10:55 +08:00
@DCjanus ES 是大轮子,想造个小轮子,目标是单台机器能满足亿级数据量的搜索就够。
lideshun123
2018-09-30 16:43:48 +08:00
分词也自己写?
kwklover
2018-09-30 16:57:00 +08:00
@lideshun123 分词也是自己写
nockyQ
2018-09-30 17:21:19 +08:00
以前基于 Lucene 开发检索模块的时候也遇到过这个问题,所幸需求相对简单勉强能应付。等一个大牛来分享下经验。
xuminzhong
2018-09-30 17:38:13 +08:00
我有做爬虫项目,日处理数据量大概是 1-2 千万,上亿数据量的搜索很早就经历过了,单机做不太难的。

但是 sorry,没有太多时间来做这样的架构分享。
kwklover
2018-09-30 20:38:51 +08:00
@xuminzhong 分享一下大致思路即可,无需花很多时间做完整的架构分享哦
DCjanus
2018-10-01 15:22:38 +08:00
之前做过的一个项目,全文检索需求比较简单,一般用的是 PostgreSQL 自带全文检索,PG 10 支持分区表,但是不知道能不能对倒排索引做分区。
ddup
2018-10-02 02:12:14 +08:00
牛逼,是用的 lucene.NET 版本?
kwklover
2018-10-02 08:53:50 +08:00
@ddup 对的,数据量一大就有好多问题
ddup
2018-10-02 09:33:45 +08:00
嘛,有个思路,数据库表水平切分了解吧? lucene .NET 也给他索引水平切分,1 一条数据,给他分 100 个索引库索引,搜索的时候并发搜索,然后合并结果,根据 score 得分排序一下。
bigtang
2023-06-05 09:34:50 +08:00
单台机器亿级数据量,参考一下 tanglib.com, 单机万亿字节数据

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/494085

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX