es 指定分词器 java elasticsearch的分词器

转载

mob64ca140beea5 2023-09-07 19:33:12

文章标签 es 指定分词器 java 分词器 elasticsearch analyzer 文章分类 Java 后端开发

七、分词器

7.1、分词器介绍

了解分词器的概念

分词器（Analyzer）是将一段文本，按照一定逻辑，拆分成多个词语的一种工具，如下所示

华为手机 ---> 华为、手、手机

ElasticSearch 内置分词器有以下几种

Standard Analyzer

默认分词器，按词/字切分，小写处理（英文）华为手机

Simple Analyzer

按照非字母切分(符号被过滤)，小写处理

Stop Analyzer

小写处理，停用词过滤(the,a,is)

Whitespace Analyzer

按照空格切分，不转小写

Keyword Analyzer

不分词，直接将输入当作输出

Patter Analyzer

正则表达式，默认\W+(非字符分割) （中文会被去掉）

Language

提供了30多种常见语言的分词器

ES提供了一个接口给我们来验证分词效果，如下所示

# 分词效果验证
GET _analyze
{
  "text": "我爱写代码",
  "analyzer": "standard"
}

分词效果如下所示
Elasticsearch内置分词器对中文很不友好（偏好英文），处理方式为一个字一个词

7.2、IK分词器介绍及安装

学会如何集成ik分词器

7.2.1、IK分词器介绍

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包，是一个基于Maven构建的项目，具有60万字/秒的高速处理能力，并且支持用户词典扩展定义。
下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases
IKAnalyzer又称庖丁解牛分词器
分词器的核心

1）词库
2）分词算法

ik_smart：最小分词法

我是程序员 -> 我、是、程序员

ik_max_word：最细分词法

我是程序员 -> 我、是、程序员、程序、员

7.2.2、IK分词器安装

1）下载好ik分词器后，进入创建ES容器的时候挂载的plugins目录
2）将ik分词器添加到plugins里面即可
3）重启es容器

docker restart elasticsearch
PS：如果发现重启失败，es启动后又意外关闭，可以查看日志，一般是下载的ik分词器版本跟es不一致导致的；可以参考博客修改（或者进入到ik分词器文件夹中修改plugin-descriptor.properties文件中的es版本号）

4）验证ik分词器是否安装成功

GET _analyze
{
  "text": "我是程序员",
  "analyzer": "ik_max_word"
}

一般情况下，ik_smart算法足够使用了，ik_max_word以最细粒度分词，会分太多次，数据量过大

7.3、使用IK分词器

7.3.1、没有设置ik分词器之前

目前person索引库的name字段位text类型，我们使用term查询（不分词查询），发现并没有结果

GET person/_search
{
  "query": {
    "term": {
      "name": {
        "value": "翠花"
      }
    }
  }
}

因为默认情况下，text类型使用standard分词器进行分词

7.3.2、重建索引并设置ik分词器

1）这时需要删除person索引库，然后重新设置name的类型为text，且analyzer为ik_max_word

# 删除person索引库
DELETE person

PUT person
{
  "mappings": {
    "properties": {
      "name":{
        "type": "text",
        "analyzer": "ik_max_word"
      },
      "age":{
        "type": "integer"
      }
    }
  }
  
}

2）插入数据

POST person/_doc/1
{
  "name": "翠花",
  "age": 20,
  "sex": "女"
}

3）再次查询

GET person/_search
{
  "query": {
    "term": {
      "name": {
        "value": "翠花"
      }
    }
  }
}

这时候不分词查询就有结果了

7.3.3、扩展词词典

随着互联网的发展，"造词运动"也越发的频繁。出现了很多新的词语，在原有的词汇列表中并不存在。比如："奥力给"，或者我们自定义的词等等
所以我们的词汇也需要不断的更新，IK分词器提供了扩展词汇的功能
使用步骤如下所示

1）打开IK分词器config目录

文件如下所示

PS：如果之前没有做目录挂载的话，可以参考如下命令

docker cp elasticsearch:/usr/share/elasticsearch/plugins/analysis-ik/config/IKAnalyzer.cfg.xml /root

2）修改IKAnalyzer.cfg.xml配置文件

在IKAnalyzer.cfg.xml配置文件中添加如下内容

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->
        <entry key="ext_dict">ext.dic</entry>
</properties>

3）新建ext.dic文件

新建一个ext.dic文件，可以参考config目录下复制一个配置文件进行修改，添加如下内容

奥里给
啊噢额

4）重启elasticsearch

docker restart elasticsearch（容器名称或id）

5）测试效果

GET /_analyze
{
  	"analyzer": "ik_max_word",
  	"text": "奥里给，啊噢额"
}

PS：如果发现没能正常分词，可以使用cat ext.dic查看输出在终端的文字是否乱码

在更改文件的时候，编码必须是UTF-8格式

PS：ik分词器不能使用中英文混合！

7.3.4、停用词词典

在互联网项目中，网络传输的速度很快，所以很多语言是不允许在网络上传递的，如：关于宗教、政治等敏感词语，那么我们在搜索的时候，也应该忽略当前词汇
IK分词器也提供了强大的停用词功能，让我们在索引的时候，就直接忽略当前停用词汇表中的内容
停用词词典使用步骤如下所示

1）修改IKAnalyzer.cfg.xml配置文件

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典-->
        <entry key="ext_stopwords">stop.dic</entry>
</properties>

2）在stopword.dic添加停用词

结业

3）重启elasticsearch

docker restart elasticsearch（容器名称或id）
查看日志：docker logs -f elasticsearch（容器名称或id）

仔细看的话，可以在日志中查看到以及成功加载stopword.dic配置文件

4）测试效果

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "2018届计算机1班的结业率高达10%,奥里给！"
}

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java 字节码类型 java字节码结构

下一篇：java雪花算法线程安全雪花算法突破69年限制

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

es 指定分词器 java elasticsearch的分词器

es 指定分词器 java elasticsearch的分词器

七、分词器

7.1、分词器介绍

7.2、IK分词器介绍及安装

7.2.1、IK分词器介绍

7.2.2、IK分词器安装

7.3、使用IK分词器

7.3.1、没有设置ik分词器之前

7.3.2、重建索引并设置ik分词器

7.3.3、扩展词词典

1）打开IK分词器config目录

2）修改IKAnalyzer.cfg.xml配置文件

3）新建ext.dic文件

4）重启elasticsearch

5）测试效果

7.3.4、停用词词典

1）修改IKAnalyzer.cfg.xml配置文件

2）在stopword.dic添加停用词

3）重启elasticsearch

4）测试效果

51CTO博客