有个奇怪的 MatchPhrase 和 MatchPhrasePrefix 的问题,求大佬帮忙分析

2020-10-19 16:51:42 +08:00
mosliu  mosliu

有条数据,使用MatchPhrasePrefix能搜出来,使用MatchPhrase搜不出来。 数据中 content 包含 山东核能 推介会 关键词

个人分析是推介会分词中的会,在句子分词中没有体现,导致 MatchPhrase 搜不出来。但是 MatchPhrasePrefix 可以 这种情况有人遇到过么?使用 MatchPhrase 有什么好办法么?

有人测试过这两个的速度么 如果使用 MatchPhrasePrefix,将 maxExpansions 设定到 100 的话 速度上会慢很多么?

环境信息

ES 版本有点老 5.6.4 字段分词采用的 ik_max_word 分词 数据量亿级

相应句子分词结果

“山东核能装备产业推介会在山东荣成召开” 分词为

代码

        BoolQueryBuilder should1 = QueryBuilders.boolQuery()
                .should(QueryBuilders.matchPhraseQuery("title", "山东核能").slop(slop))
                .should(QueryBuilders.matchPhraseQuery("content", "山东核能").slop(slop))
//                .should(QueryBuilders.matchPhrasePrefixQuery("title", "山东核能").maxExpansions(100))
//                .should(QueryBuilders.matchPhrasePrefixQuery("content", "山东核能").maxExpansions(100))
                .minimumShouldMatch(1)
                ;
        BoolQueryBuilder should2 = QueryBuilders.boolQuery()
                .should(QueryBuilders.matchPhraseQuery("title", "推介会").slop(slop))
                .should(QueryBuilders.matchPhraseQuery("content", "推介会").slop(slop))

//                .should(QueryBuilders.matchPhrasePrefixQuery("title", "推介会").maxExpansions(100))
//                .should(QueryBuilders.matchPhrasePrefixQuery("content", "推介会").maxExpansions(100))
                .minimumShouldMatch(1)
                ;

注释掉的是 matchPhrasePrefix 是能搜出来的

数据部分为:

"title": "一批核能产业创新项目落地山东",
"content": " 今天上午,山东核能装备产业推介会在山东荣成召开,一批核能产业创新项目集中落地。此次落地的核能产业创新项目,涵盖核能供热、技术研发、金属防护、设备检修等领域。其中,<a href="https://www.ironge.com.cn">融易资讯网( www.ironge.com.cn )</a>,核电仪控设备研发平台,定位解决三代核电卡脖子问题的技术研发和产品制造;核电站全生命周期金属防护实验平台,将使核电站防腐技术达到国际领先水平;国核示范电站核能供暖项目,能够满足 40 万人口的冬季供热需求。"
1920 次点击
所在节点   Elasticsearch  Elasticsearch
1 条回复
ksedz
ksedz
2020-11-06 21:13:14 +08:00
我记得遇到过这个问题,就是因为 prefix 会检查下一个词,如果当前的剩余部分是下个词的前缀也认为是匹配成功。按理说速度不会差多少,没什么耗性能的操作,需要实际测试。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/716432

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX