ELK日志收集之ES映射与分词器IK中文分词器

精选原创

alibaby_007 2024-10-01 01:05:36 博主文章分类：ELK ©著作权

©著作权归作者所有：来自51CTO博客作者alibaby_007的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、简介

映射(Mapping)：定义了索引中文档的结构，包括字段的数据类型、分析器设置等。映射决定了如何索引和搜索文档中的数据，官方文档之映射。

#映射的作用
1.定义字段类型和数据结构
映射定义了字段的数据类型（如text、keyword、integer等），决定了字段如何被索引和搜索。
2.控制数据存储和检索策略
映射决定了文档是如何被存储和检索的，合理的映射可以提高索引的性能和准确性，而不合理的映射可能导致性能下降和结果不准确。
3.灵活性和优化
映射提供了灵活性和优化选项，如是否存储原始值、是否创建doc values等，这些设置可以帮助进行更高效的排序和聚合操作
#常见的数据类型
text：用于全文检索的字符串字段，可以进行分词。
keyword：不进行分词的字符串字段，常用于过滤、排序和聚合。
integer 和 long：整数类型的字段，适合存储整数值。
float 和 double：浮点数类型的字段，适合存储小数值。
boolean：布尔类型的字段，存储true或false值。
date：日期类型的字段，存储日期值。
ip：IPv4和IPv6地址，es会自动将IP地址转换为适合搜索的无符号整数形式。

类型(Type)：在Elasticsearch 7.x之前的版本中，一个索引可以包含多个类型，用于存储不同类型的文档。自Elasticsearch 7.0起，单一类型索引成为标准，类型概念已被弃用。

分词器(Analyzer)：负责将文本字段分解为词汇单元，并进行标准化处理。分析器在索引和搜索时分别应用于文本，确保查询与索引数据的一致性，官方Text analysis文档。

#分词器的的作用
1.规范化
分词器可以对文本进行预处理，如去除HTML标签、转换大小写、移除停用词等，以确保分词结果的标准化和规范化。
2.语言特异性
针对不同语言，分词器需要遵循特定的语言规则和词典进行分词，以确保分词的准确性和效率1。
3.优化搜索体验
通过合理的分词，可以提高搜索的相关性和准确性，提升用户体验。
#分词器的类型
Standard Analyzer：默认分词器，适用于大多数情况，按词切分并进行小写处理，使用空格和符号进行切割分词。
Whitespace Analyzer：根据空白字符切分文本。
Simple Analyzer：将文本切分成单个字符。
Stop Analyzer：移除文本中的停用词。
Keyword Analyzer：将文本视为一个整体，不进行任何切分，适用于需要精确匹配的场景。
IK：中文分词器。

ik中文分词器的安装，ik版本要与es版本一致，github项目地址

cd /es/softwares/es7/elasticsearch-7.17.5
./bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/7.17.5
systemctl restart es7

二、映射举例

0.映射示例

title 字段被定义为 text 类型，用于全文搜索，
author 字段被定义为 keyword 类型，用于精确匹配和排序，
publish_date 字段被定义为 date 类型，用于存储日期，
page_count 字段被定义为 integer 类型，用于存储整数值，
rated 字段被定义为 boolean 类型，用于存储布尔值。

#创建映射
PUT http://192.168.77.176:9200/my_index
#body内容  josn格式
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text"
      },
      "author": {
        "type": "keyword"
      },
      "publish_date": {
        "type": "date"
      },
      "page_count": {
        "type": "integer"
      },
      "rated": {
        "type": "boolean"
      }
    }
  }
}

1.创建一个包含ip类型字段的映射

#创建ip类型的映射
PUT http://192.168.77.176:9200/alibaby005-ip
#body内容  josn格式
{
  "mappings": {
    "properties": {
      "ip_address": {
        "type": "ip"
      }
    }
  }
}

ELK日志收集之ES映射与分词器IK中文分词器_分词器

2.批量添加IP地址

#批量添加IP地址
POST http://192.168.77.176:9200/alibaby005-ip/_bulk
#body内容  josn格式
{"create":{"_index":"alibaby005-ip"}}
{"ip_address":"192.168.1.1"}
{"create":{"_index":"alibaby005-ip"}}
{"ip_address":"192.168.1.2"}
{"index":{"_index":"alibaby005-ip"}}
{"ip_address":"10.0.0.1"}
{"index":{"_index":"alibaby005-ip"}}
{"ip_address":"10.0.0.2"}

ELK日志收集之ES映射与分词器IK中文分词器_IK中文分词器_02

3.使用IP地址段进行搜索

#使用IP地址进行搜索
GET http://192.168.77.176:9200/alibaby005-ip/_search
#body内容  josn格式
{
  "query": {
    "match": {
      "ip_address": "192.168.1.0/24"
    }
  }
}

ELK日志收集之ES映射与分词器IK中文分词器_分词器_03

4.其他类型举例

#创建索引并定义映射
PUT http://192.168.77.176:9200/alibaby005-other
#body内容  josn格式
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "age": {
        "type": "integer"
      },
      "email": {
        "type": "keyword"
      }
    }
  }
}

ELK日志收集之ES映射与分词器IK中文分词器_IK中文分词器_04

##批量添加数据
POST http://192.168.77.176:9200/alibaby005-other/_bulk
#body内容  josn格式
{ "index": {}}
{ "name": "John Doe", "age": 30, "email": "john@example.com" }
{ "index": {}}
{ "name": "Jane Doe", "age": 25, "email": "jane@example.com" }

ELK日志收集之ES映射与分词器IK中文分词器_映射_05

##查询数据 匹配所有
GET http://192.168.77.176:9200/alibaby005-other/_search
#body内容  josn格式
{
  "query": {
    "match_all": {}
  }
}

#查询数据 基于name字段  text类型可分词模糊搜索
GET http://192.168.77.176:9200/alibaby005-other/_search
#body内容  josn格式
{
    "query":{
        "match":{
            "name": "Doe"
        }
    }
}

ELK日志收集之ES映射与分词器IK中文分词器_分词器_06

三、分词器举例

0.分词器示例

在这个例子中，我们创建了一个名为my_index的索引。
我们定义了一个字段text，它的类型是text，并指定了一个自定义分词器my_analyzer。
分词器my_analyzer使用标准分词器my_tokenizer，并应用了小写过滤器lowercase。
这个例子展示了如何在Elasticsearch中定义一个包含自定义分词器的映射。
这对于创建全文搜索功能非常重要，因为分词器决定了文本如何被分割和分析以便于搜索。

#创建索引并定义映射和分词器
PUT http://192.168.77.176:9200/my_index
#body内容  josn格式
{
  "mappings": {
    "properties": {
      "text": {
        "type": "text",
        "analyzer": "my_analyzer"
      }
    }
  },
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer",
          "filter": [
            "lowercase"
          ]
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "standard"
        }
      }
    }
  }
}

1.内置默认标准分词器-分析英文

#内置默认标准分词器-分析英文
GET http://192.168.77.176:9200/_analyze
#body内容  josn格式
{
  "text": "The quick brown fox jumps over the lazy dog.",
  "analyzer": "standard"
}

ELK日志收集之ES映射与分词器IK中文分词器_映射_07

2.IK中文分词器

#IK中文分词器-细粒度拆分
GET http://192.168.77.176:9200/_analyze
#body内容  josn格式
{
    "analyzer": "ik_max_word",
    "text": "小学生作文花园的秘密"
}

细粒度拆分分词结果---小学生小学学生

ELK日志收集之ES映射与分词器IK中文分词器_分词器_08

#IK中文分词器-粗粒度拆分
GET http://192.168.77.176:9200/_analyze
#body内容  josn格式
{
    "analyzer": "ik_smart",
    "text": "小学生作文花园的秘密"
}

粗粒度拆分分词结果---小学生

ELK日志收集之ES映射与分词器IK中文分词器_IK中文分词器_09

3.基于字典的IK中文分词器

#进入ik字典配置目录
cd /es/softwares/es7/elasticsearch-7.17.5/config/analysis-ik
#自定义字典
cat >alibaby007.dic<<'EOF'
游西湖十景
品杭州美食
感杭州人文
EOF
#加载自定义字典
vim IKAnalyzer.cfg.xml
改<entry key="ext_dict"></entry>
为<entry key="ext_dict">alibaby007.dic</entry>
#重启ES集群
systemctl restart es7

#IK中文分词器-粗粒度拆分
GET http://192.168.77.176:9200/_analyze
#body内容  josn格式
{
    "analyzer": "ik_smart",
    "text": "杭州西湖，是中国最著名的风景名胜之一，也是杭州的灵魂所在，国庆节来游西湖十景、品杭州美食、感杭州人文吧。"
}

ELK日志收集之ES映射与分词器IK中文分词器_映射_10