查看es所支持的分词器 es使用ik分词器查询

转载

mob6454cc649dc8 2024-06-18 21:07:02

文章标签 查看es所支持的分词器 ElasticSearch elasticsearch maven 分词器 文章分类 架构后端开发

1ElasticSearch分词器

分词器(Analyzer) :将一段文本，按照定逻辑，分析成多个词语的一种工具如:华为手机---> 华为、手、手机

elasticSearch内置分词器
standard Analyzer-默认分词器，按词切分,小写处理
simple Analyzer -按照非字母切分(符号被过滤),小写处理
stop Analyzer-小写处理，停用词过滤(the,a,is)
whitespace Analyzer-按照空格切分，不转小写
keyword Analyzer -不分词，直接将输入当作输出
patter Analyzer-正则表达式，默认\W+ (非字符分割
language -提供了30多种常见语言的分词器

ElasticSearch内置分词器对中文很不友好，处理方式为: 一个字一个词。

例如：

创建一组分词：GET IP+_analyze +json数据
http://111.230.182.125:9200/_analyze  json格式数据
{
	"analyzer": "standard",
	"text": "我爱北京天安门"
}

查看es所支持的分词器 es使用ik分词器查询_ElasticSearch

2.Ik分词器

2.1简介

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包
是一个基于Maven构建的项目
具有60万字/秒的高速处理能力
支持用户词典扩展定义
下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases

2.2Maven安装

需要借助maven打包ik。所以需要在linux中下载maven

先设置JAVA_HOME (这里我没改。用的还是原来安装Java jdk的配置)

vim /etc/profile
#在profile文件末尾添加
#java envir onment
export JAVA_HOME=/opt/es/elasticsearch-7.13.1/jdk
export PATH=$PATH:${JAVA_ HOME}/bin
#保存退出后，重新加载profile
source /etc/profile

下载maven：

wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz

解压之后设置一个软连接(类型win上快捷键):

ln -s apache-maven-3.5.4 maven =>(ln -s 原始文件名称  新访问名称)

设置path:

设置：  vim  /etc/profile 
设置完毕之后刷新：source /etc/profile
然后查看maven是否生效：mvn -v

#/etc/profile中内容
export M2_HOME=/opt/es/maven
export PATH=${M2_HOME}/bin:${PATH}

注意如果/etc/profile的path有多个变量用:区分

2.3Ik安装

先去下载对应版本(和ElasticSerch版本一致)：

https://github.com/medcl/elasticsearch-analysis-ik/releases

移动解压到linux服务器上：tar -zxvf elasticsearch-analysis-ik-7.13.1.tar.gz
进入到ik文件中，然后进行打包 mvn package(打包完之后会有一个target文件) (打包之前先去pom.xml中查看打包的版本是否和elasticsearch版本一致)
切换到elasticSearch下的plugins目录下：

cd /opt/es/elasticsearch-7.13.1/plugins/

新建一个目录放刚刚ik打包的文件。并且进入

mkdir analysis-ik

将刚刚打包文件拷贝到这里、

cp -r /opt/es/elasticsearch-analysis-ik-7.13.1/target/releases/elasticsearch-analysis-ik-7.13.1.zip /opt/es/elasticsearch-7.13.1/plugins/analysis-ik

然后解压 unzip elasticsearch-analysis-ik-7.13.1.zip (由于是zip压缩包，用unzip解压)
拷贝词典：将elasticsearch-analysis-ik-7.13.1目录下的config目录中的所有文件拷贝到elasticsearch的config目录

cp /opt/es/elasticsearch-analysis-ik-7.13.1/config/* /opt/es/elasticsearch-7.13.1/config

重启 elasticsearch的bin文件夹下 ./elasticsearch

2.4ik分词器的使用

IK分词器有两种分词模式: ik_max_word和ik_smart模式。
ik_max_word:会将文本做最细粒度的拆分，比如会将”乒乓球明年总冠军”拆分为“乒乓球、乒乓、球、明年、总冠军、冠军。
ik_smart:会将文本做最粗粒度的拆分：比如会将”乒乓球明年总冠军”拆分为“乒乓球、明年、总冠军、”

想看简单的可以看这个apipost文档

https://docs.apipost.cn/preview/c06859fcd7689b29/da6fe8c16d8b895e

查看es所支持的分词器 es使用ik分词器查询_查看es所支持的分词器_02

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python的bytes图片 python2 bytes

下一篇：HarmonyOS自定义组件插槽 harmoniser插件

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

查看es所支持的分词器 es使用ik分词器查询

查看es所支持的分词器 es使用ik分词器查询

1ElasticSearch分词器

2.Ik分词器

2.1简介

2.2Maven安装

2.3Ik安装

2.4ik分词器的使用

51CTO博客