有个奇怪的 MatchPhrase 和 MatchPhrasePrefix 的问题,求大佬帮忙分析

2020-10-19 16:51:42 +08:00
 mosliu

有条数据,使用MatchPhrasePrefix能搜出来,使用MatchPhrase搜不出来。 数据中 content 包含 山东核能 推介会 关键词

个人分析是推介会分词中的会,在句子分词中没有体现,导致 MatchPhrase 搜不出来。但是 MatchPhrasePrefix 可以 这种情况有人遇到过么?使用 MatchPhrase 有什么好办法么?

有人测试过这两个的速度么 如果使用 MatchPhrasePrefix,将 maxExpansions 设定到 100 的话 速度上会慢很多么?

环境信息

ES 版本有点老 5.6.4 字段分词采用的 ik_max_word 分词 数据量亿级

相应句子分词结果

“山东核能装备产业推介会在山东荣成召开” 分词为

代码

        BoolQueryBuilder should1 = QueryBuilders.boolQuery()
                .should(QueryBuilders.matchPhraseQuery("title", "山东核能").slop(slop))
                .should(QueryBuilders.matchPhraseQuery("content", "山东核能").slop(slop))
//                .should(QueryBuilders.matchPhrasePrefixQuery("title", "山东核能").maxExpansions(100))
//                .should(QueryBuilders.matchPhrasePrefixQuery("content", "山东核能").maxExpansions(100))
                .minimumShouldMatch(1)
                ;
        BoolQueryBuilder should2 = QueryBuilders.boolQuery()
                .should(QueryBuilders.matchPhraseQuery("title", "推介会").slop(slop))
                .should(QueryBuilders.matchPhraseQuery("content", "推介会").slop(slop))

//                .should(QueryBuilders.matchPhrasePrefixQuery("title", "推介会").maxExpansions(100))
//                .should(QueryBuilders.matchPhrasePrefixQuery("content", "推介会").maxExpansions(100))
                .minimumShouldMatch(1)
                ;

注释掉的是 matchPhrasePrefix 是能搜出来的

数据部分为:

"title": "一批核能产业创新项目落地山东",
"content": " 今天上午,山东核能装备产业推介会在山东荣成召开,一批核能产业创新项目集中落地。此次落地的核能产业创新项目,涵盖核能供热、技术研发、金属防护、设备检修等领域。其中,<a href="https://www.ironge.com.cn">融易资讯网( www.ironge.com.cn )</a>,核电仪控设备研发平台,定位解决三代核电卡脖子问题的技术研发和产品制造;核电站全生命周期金属防护实验平台,将使核电站防腐技术达到国际领先水平;国核示范电站核能供暖项目,能够满足 40 万人口的冬季供热需求。"
1875 次点击
所在节点    Elasticsearch
1 条回复
ksedz
2020-11-06 21:13:14 +08:00
我记得遇到过这个问题,就是因为 prefix 会检查下一个词,如果当前的剩余部分是下个词的前缀也认为是匹配成功。按理说速度不会差多少,没什么耗性能的操作,需要实际测试。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/716432

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX