es忽略大小写 es搜索忽略大小写

转载

网猴儿 2024-04-08 10:08:51

注意：es 英文默认是使用小写的方式搜索的

搜索技术深入

手工控制搜索结果精准度

下面搜索，如果firstName中含有idriss 或者Ahamat，都符合搜索条件

GET worldcheck/_search
{
  "query": {
    "match": {
      "firstName": "idriss Ahamat"
    }
  }
}

下面搜索，firstName中含有idriss 和Ahamat

GET worldcheck/_search
{
  "query": {
    "match": {
      "firstName": {
        "query": "idriss Ahamat",
        "operator": "and" // or 搜索 和方法1效果相同
      }
    }
  }
}

需要firstName字段中包含多个搜索条件中的一定比例，则可以使用minimum_should_match实现，其中minimum_should_match可以使用百分比或者数字，百分比代表query搜索条件中词条百分比，如果无法整除，则向上取整（不能使用小数），（如：query有3个字段，如果使用使用百分比则无法除尽，那么需要至少匹配两个单词，则需要67%来进行描述，如果使用66%，es默认匹配一个单词）;固定数字代表query搜索条件中的词条，至少需要匹配多少个。

GET worldcheck/_search
{
  "query": {
    "match": {
      "firstName": {
        "query": "idriss Ahamat",
        "minimum_should_match": "50%" // 或者 1
      }
    }
  }
}

使用should+ bool 搜索，下面搜索firstName字段中idriss 、Ahamat三个单词必须包含一个

GET worldcheck/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "firstName": "idriss"
          }
        },
        {
          "match": {
            "firstName": "Ahamat"
          }
        }
      ],
      "minimum_should_match": 1 // 不加 默认也是包含任意一个
    }
  }
}

match 的底层转换

GET worldcheck/_search
{
 "query": {
   "match": {
     "userName": "Walter BALZAN"
   }
 }
}

转换后

GET worldcheck/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "userName": "Walter"
          }
        },
        {
          "match": {
            "userName": "BALZAN"
          }
        }
      ]
    }
  }
}

GET worldcheck/_search
{
  "query": {
    "match": {
      "userName": {
        "query": "Walter BALZAN",
        "operator": "and"
      }
    }
  }
}

转换后

GET worldcheck/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "userName": "Walter"
          }
        },
        {
          "match": {
            "userName": "BALZAN"
          }
        }
      ]
    }
  }
}

GET worldcheck/_search
{
  "query": {
    "match": {
      "userName": {
        "query": "Walter BALZAN MITROVIC",
       "minimum_should_match": 2 # 至少匹配两个单词
      }
    }
  }
}

转换后

GET worldcheck/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "userName": "Walter"
          }
        },
        {
          "match": {
            "userName": "BALZAN"
          }
        },
        {
          "match": {
            "userName": "MITROVIC"
          }
        }
      ],
      "minimum_should_match": 2
    }
  }
}

建议：如果不怕麻烦,尽量使用转换后的语法执行搜索，效率更高。

boost 权重控制

搜索文档中 username 字段中包含Walter的数据，如果username中包含BALZAN 或者 MITROVIC，则包含BALZAN 的文档优先显示(就是将BALZAN 数据匹配时的相关都分数增加)

GET worldcheck/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "userName": "Walter"
          }
        }
      ],
      "should": [
        {
          "match": {
            "userName": {
              "query": "BALZAN",
              "boost": 3
            }
          }
        },
        {
          "match": {
            "userName": {
              "query": "MITROVIC",
              "boost": 1
            }
          }
        }
      ]
    }
  }
}

一般用于搜索需要某个数据显示在最前面_score 权重分数用于测试观察

多shard 环境中相关分数不准确问题

在es 的搜索结果中，相关度分数不是一定准确的，相同的数据，使用相同的搜索条件搜索，得到的相关度分数可能有误差。
出现这种问题的原因是：
多分片（如果只要一个分片就不会有误差），例如在shard0中，有100个document中包含Walter，在shard1中有10个包含Walter，那么在执行搜索的时候，es计算相关度分数时，就会出现计算不准确的问题。因为es计算相关度分数是在shard本地计算的，根据TF/IDF算法，在shard0中的document相关度会低于shard1,这也是es 官方解释过的一个问题。
在生产环境中，如果数据量足够多，es会将数据均匀分布在多个shard中，那么在概率上看，不会出现这种问题。
在开发测试中可以创建index的时候，settings设置number_of_shards:1来解决这个问题，也可以通过下述搜索中的请求参数来解决这个问题。

GET worldcheck/_search?search_type=dfs_query_then_fetch
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "userName": "Walter"
          }
        }
      ],
      "should": [
        {
          "match": {
            "userName": {
              "query": "BALZAN",
              "boost": 3
            }
          }
        },
        {
          "match": {
            "userName": {
              "query": "MITROVIC",
              "boost": 1
            }
          }
        }
      ]
    }
  }
}

注意： search_type=dfs_query_then_fetch参数不要在生产环境中使用，效率极低。因为这是将所有的查询结果反馈到协调节点后，协调节点在统一计算相关分数的方式，对内存和IO的压力很高。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。