keyword family包括以下字段类型:

  • keyword,用于结构化内容,如ID、电子邮件地址、主机名、状态码、邮政编码或标记。
  • constant_keyword  始终包含相同值的keyword字段。
  • wildcard  非结构化machine-generated内容,wildcard类型针对具有大值或高基数的字段进行了优化。

keyword字段通常用于排序(sorting)、聚合(aggregations)和term-level查询,例如term。

避免使用keyword字段进行全文搜索(full-text)。改为使用文本(text)字段类型。

Keyword field type

下面是基本keyword字段的映射示例:

PUT my-index-000001
{
  "mappings": {
    "properties": {
      "tags": {
        "type":  "keyword"
      }
    }
  }
}

映射数字标识符

并非所有数值数据都应映射为numeric字段数据类型。Elasticsearch为了range查询会优化数值字段,如integer或long。但是,keyword字段更适合term和其他term-level查询。

range查询中很少使用诸如ISBN或产品ID之类的标识符。但是,它们通常使用term-level查询进行检索。

如果将数字标识符映射为keyword,请考虑:

  • 不打算使用范围(range)查询搜索标识符数据。
  • 快速检索很重要。keyword字段上的term查询搜索通常比数字字段上的term搜索快。

如果不确定要使用哪个字段,可以使用多字段将数据映射为keyword和数字(numeric)数据类型。

常量关键字(Constant Keyword)字段类型

常量关键字是keyword字段的特殊化,用于索引中的所有文档都具有相同的值

PUT logs-debug
{
  "mappings": {
    "properties": {
      "@timestamp": {
        "type": "date"
      },
      "message": {
        "type": "text"
      },
      "level": {
        "type": "constant_keyword",
        "value": "debug"
      }
    }
  }
}

constant_keyword支持与keyword字段相同的查询和聚合,但利用了所有文档的每个索引值相同这一事实,以更高效地执行查询。

允许提交没有字段值或值等于映射中配置的值的文档。以下两个索引请求是等效的:

POST logs-debug/_doc
{
  "date": "2019-12-12",
  "message": "Starting up Elasticsearch",
  "level": "debug"
}

POST logs-debug/_doc
{
  "date": "2019-12-12",
  "message": "Starting up Elasticsearch"
}

但是,不允许提供与映射中配置的值不同的值。

如果映射中没有提供值,则该字段将根据第一个索引文档中包含的值自动配置自身。虽然这种行为很方便,但请注意,这意味着如果一个不好的文档的值错误,那么它可能会导致所有其他文档被拒绝。

在提供值之前(通过映射或来自文档),字段上的查询将不匹配任何文档。这包括exists查询。

设置字段后,无法更改该字段的值。

通配符(Wildcard)字段类型

wildcard字段类型是一个专门的keyword字段,用于非结构化机器生成的内容,你计划使用grep-like的wildcard和regexp查询进行搜索。wildcard类型针对具有大值或高基数的字段进行了优化。

映射非结构化内容

可以将包含非结构化内容的字段映射到text或keyword family字段。最佳字段类型取决于内容的性质以及你计划如何搜索字段。

在以下情况下使用text字段类型:

  • 内容是人类可读的,例如电子邮件正文或产品描述。
  • 计划在字段中搜索单个单词或短语,例如the brown fox jumped,使用全文查询(full text queries)。Elasticsearch  analyzes text字段,为这些查询返回最相关的结果。

在以下情况下使用keyword family 字段:

  • 内容由机器生成,例如日志消息或HTTP请求信息。
  • 计划使用term-level queries查询在字段中搜索精确的完整值(如org.foo.bar)或部分字符序列(如org.foo.*)。

在内部,wildcard字段使用ngrams索引整个字段值,并存储完整字符串。索引用作粗过滤器,通过检索和检查完整值来减少随后检查的值的数量。此字段特别适合在日志行上运行类似grep的查询。存储成本通常低于keyword字段的存储成本,但在完整术语上精确匹配的搜索速度较慢。如果字段值共享许多前缀,例如同一网站的URL,则wildcard字段的存储成本可能高于等效keyword字段。

我们可以按如下方式索引和搜索wildcard字段:

PUT my-index-000001
{
  "mappings": {
    "properties": {
      "my_wildcard": {
        "type": "wildcard"
      }
    }
  }
}


PUT my-index-000001/_doc/1
{
  "my_wildcard" : "This string can be quite lengthy"
}


GET my-index-000001/_search
{
  "query": {
    "wildcard": {
      "my_wildcard": {
        "value": "*quite*lengthy"
      }
    }
  }
}

局限性

wildcard字段与keyword字段一样是未排序的,因此不支持依赖于单词位置的查询,例如短语(phrase)查询。

运行wildcard查询时,将忽略任何重写参数。得分总是一个恒定的分数。