es查看所有分词器 es查看分词结果

转载

mob64ca1418e88d 2024-04-23 11:47:28

1. term查询是基于词项的查询,而且当设置为term查询时,es不会对这个词做任何处理,但是在文本进行分词时,通常都会将大写转为小写,这个时候就会出现查不出来的情况,比如:

POST /test/_doc
{
  "name":"Pantheon"
}

这样创建出来的doc可以看到明显做了lowercase,因为用的standard分词器
GET /test/_analyze
{
  "field": "name",
  "text": "Pantheon"
  
}
// 结果如下

{
  "tokens" : [
    {
      "token" : "pantheon",
      "start_offset" : 0,
      "end_offset" : 8,
      "type" : "<ALPHANUM>",
      "position" : 0
    }
  ]
}

所以当使用下面的语句去查时,会没有结果
GET /test/_search
{
  "query": {
    "term": {
      "name": {
        "value": "Pantheon"
      }
    }
  }
}
所以需要使用es给字段额外添加的一个元数据信息.keyword,在生成文本时,
es也会将该字段原封不动的保存到keyword属性当中去,所以下面这个语句可以查询出来

GET /test/_search
{
  "query": {
    "term": {
      "name.keyword": {
        "value": "Pantheon"
      }
    }
  }
}

2. match 和match_pharse查询都是属于全文查询,全文查询会给当前的句子进行分词,通常来讲,索引的时候怎么分的词,查询的时候就是用的什么分词器,默认是不用设置的,但是如果有个别场景,也可以自己设置分词器。

区别举个例子,"I am Pantheon",这句话如果用match来查,会搜出字段中有"I","am","Pantheon"的文档,也就是说默认是只要这段话中有这查询几个词的一个就返回文档 [结果1]；当然也可以设置他的'operator'属性为'and',要求查出来的必须包含"I am Pantheon"这几个词" [结果2]。

而match_pharse可以精确的查询"I am Pantheon"【demo3】这一段话,这几个词之间有没有间隔可以通过slot属性来设置【demo4】,比如设置了slot为1,那就可以查出"I am not Pantheon"这样的句子,举例如下:

POST /test/_bulk
{ "index": { "_id": 1 }}
{ "desc":"I am Pantheon" }
{ "index": { "_id": 2 }}
{ "desc":"I am not Pantheon" }
{ "index": { "_id": 3 }}
{ "desc":"I am Leo" }

### 结果1
GET /test/_search
{
  "query": {
    "match": {
      "desc": "I am Pantheon"
    }
  }
}
### 结果2
GET /test/_search
{
  "query": {
    "match": {
      "desc":{
        "query": "I am Pantheon",
        "operator": "and"
      }
    }
  }
}
### 结果3
GET /test/_search
{
  "query": {
    "match_phrase": {
      "desc":{
        "query": "I am Pantheon"
      }
    }
  }
}

### 结果4--有先后顺序 包含多个，解决了我们查询只有部分匹配。示例 张峰 ，会将所有张的查到，峰的也会查到。
GET /test/_search
{
  "query": {
    "match_phrase": {
      "desc":{
        "query": "I am Pantheon"
      }
    }
  }
}
### 结果5
GET /test/_search
{
  "query": {
    "match_phrase": {
      "desc":{
        "query": "I am Pantheon",
        "slop": 1
      }
    }
  }
}

总结：三种查询都是对分词组合不同的玩法

1.基于词项的查询

a.term查询,基于词项的查询。精确匹配，只是查分词,不会对查询语句做任何处理。es不会对这个词做任何处理,但是在文本进行分词时,通常都会将大写转为小写,这个时候就会出现大小写不匹配查不出来的情况。

2.全文查询【对当前句子进行分词】

match 和match_pharse查询都是属于全文查询,全文查询会给当前的句子进行分词

b.match查询,查询语句分词后对文档是否包含的一种

c.match_phase是对查询语句分词后,各词项间隔距离多少的玩法

ps 我们线上曾经遇见过一个问题：

问题描述：使用的是match查询，但是当我们查询 ”张峰”时，会将所有“张”的查询到，“峰”的也会查询到。这样就会导致一个问题，例如查询“努尔哈赤-张峰”，那么就会返回很多我们不希望要的结果。

解决办法

1.使用match_phrase 精确查询，如果查询 “张峰”，那么返回所有的结果集，都是 “张峰”。由于业务没有使用slop【参数如果置为1，可以同时查询得到 “张峰” “张大峰”】

2.继续使用match 查询，但是加上operator 。示例

GET /test/_search
{
  "query": {
    "match": {
      "desc":{
        "query": "I am zhanggf",
        "operator": "and"
      }
    }
  }
}


如上的可以查看到 
I am zhanggf
I am not zhanggf

ES 第一次线上规划设计，难免有很多理解偏差。后续继续修正。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。