成语大全网 - 汉语词典 - [ES]搜索match_phrase和wildcard的区别

[ES]搜索match_phrase和wildcard的区别

句子中包含 hello 或 world 的都会被搜索出:

句子中包含 hello world 的会被搜索出:

也就是说hello world 必须相邻。

再看一个例子:

这个搜索 hello es world 也会被搜索出来,因为中间间隔的词数为1 < 2。可以通过指定slot来控制移动词数。

执行过程:

match_phrase执行过程:

1.如match搜索一样进行分词,

2.对分词后的单词到field中去进行搜索(多个term匹配)。这一步返回每个单词对应的doc,并返回这些单词在对应的doc中的位置,

3.对返回的doc进行第一步的筛选,找到每个单词都在同一个field的doc。

4.对第3步进行筛选后的doc进行再一次的筛选,选回位置符合要求的doc。比如,对于match_phrase,就是找到后一个单词的位置比前一个单词的位置大1。或者移动次数<slot的文档。

5.proximity match(使用slot)原理一样,只是第四位对位置进行筛选时的方法不同。

比如要搜索“hello world”

prefix的原理:

需要遍历所有倒排索引,并比较每个term是否已所指定的前缀开头。

比如,

搜索过程:

为了支持前缀匹配,查询会做以下事情:

如果以w1开头的term很多,那么会有严重的性能问题。但是如果term比较小集合,可以放心使用。

这也意味着我们需要注意与前缀查询中相同的性能问题,执行这些查询可能会消耗非常多的资源,所以我们需要避免使用左模糊这样的模式匹配(如, foo 或 .foo 这样的正则式)

注意:

prefix、wildcard 和 regrep 查询是基于术语操作的,如果我们用它们来查询分析过的字段(analyzed field),他们会检查字段里面的每个术语,而不是将字段作为整体进行处理。

这种查询的行为与 match_phrase 查询一致,不同的是它将查询字符串的最后一个词作为前缀使用。

比如:

与 match_phrase 一样,它也可以接受 slop 参数让相对词序位置不那么严格:

我们可以通过设置 max_expansions 参数来限制前缀扩展的影响,一个合理的值是可能是50:

参数max_expansions控制着可以与前缀匹配的术语的数量

另一个即时搜索的方法是,使用 Ngram部分匹配 , 这种方法会增加索引的开销,但是会加快查询速度。具体可以自行查阅。