1
giantreaper0 4 天前
ngram 切片,即每三个字符创建一项索引,比如 abcdefg ,就有 abc, bcd, cde, efg 四套。ES 好像是支持这种分词的
|
2
giantreaper0 4 天前
@giantreaper0 补充一下,不是三个,是自定义 n 个,例子里是 3
|
3
Gilfoyle26 4 天前
单独存一张表,不用 innodb
|
4
czjxy881 4 天前 3
es 里 ngram 分词器,支持配置 min_gram 和 max_gram, 若 min=1,max=4 对于 abcd 就会变成 a,b,c,d,ab,bc,cd,abc,bcd,abcd 这么多 term ,对于随便一个命中的,都可以做到毫秒级召回亿级数据。本质上是用空间换时间。 若是不想空间占用过多,也可以 xgram 后用 match_phrase_prefix
|