HANLP ik分词器 ik分词器的作用

转载

coolfengsy 2023-07-31 17:08:09

文章标签 HANLP ik分词器分词器自定义 elasticsearch 文章分类 NLP 人工智能

1. 什么是IK分词器？

我们在使用百度搜索引擎的时候，经常会发现有一些标红的关键词，这些被标记的关键词分的还是非常精准的：

HANLP ik分词器 ik分词器的作用_自定义_02

这里对中文进行分词使用的就是IK分词器技术，所谓分词就是将一段文字划分为一个个的关键字，在搜索的时候会把搜索的文字进行分词，对文档中的数据也进行分词，然后会将分词后的关键字进行匹配，默认的中文分词是将每个字作为一个词，比如好好学习使用中文分词器拆分之后就是好、好、学、习。这种分词器显然不够优秀，而IK分词器提供了两种分词算法：ik_smart和ik_max_word。要使用IK分词器，首先需要下载GitHub所有版本下载地址，将下载好得ik分词器放到elasticsearch的plugins目录下：

HANLP ik分词器 ik分词器的作用_分词器_03

注意：IK分词器与elasticsearch存在兼容问题，所以下载的ik分词器需要与当前的elasticsearch版本一致

Ik分词器7.6.2版本下载 提取码：3bfr

将下载好得ik分词器放到elasticsearch得plugin目录下之后，启动es，我们会看到es会自动加载ik分词器：

HANLP ik分词器 ik分词器的作用_自定义_04

打开kibana的开发工具：

HANLP ik分词器 ik分词器的作用_自定义_05

测试两种不同的分词算法：

2. ik_smart 分词算法

ik_smart（最少切分）

HANLP ik分词器 ik分词器的作用_分词器_06

HANLP ik分词器 ik分词器的作用_分词器_07

3. ik_max_word 分词算法

ik_smart（最细粒度切分）

HANLP ik分词器 ik分词器的作用_HANLP ik分词器_08

两种分词算法个人感觉ik_smart相当于就是一个最粗粒度划分，而ik_max_word是最细粒度划分

4. 如何自定义词库

ik分词器可以支持自定义词库，比如我们想让分词器识别“明我”，就需要自定义一个词库：

在ik分词器的config下面新建一个my.dic文件，文件中编辑输入明我
修改IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">my.dic</entry>
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords"></entry>
	<!--用户可以在这里配置远程扩展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用户可以在这里配置远程扩展停止词字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

HANLP ik分词器 ik分词器的作用_自定义_09