solr 中文分词ik与hanlp solr分词器

转载

mob6454cc6f4a4e 2024-05-16 17:26:23

文章标签 solr 中文分词ik与hanlp solr xml analyzer 文章分类 NLP 人工智能

　　关于solr7.4搭建与配置可以参考 solr7.4 安装配置篇在这里我们探讨一下分词的配置

　　关于分词

　　配置分词

　　验证成功

1.关于分词

　　1.分词是指将一个中文词语拆成若干个词，提供搜索引擎进行查找，比如说：北京大学是一个词那么进行拆分可以得到：北京与大学，甚至北京大学整个词也是一个语义

　　2.市面上常见的分词工具有 IKAnalyzer MMSeg4j Paoding等，这几个分词器各有优劣，大家可以自行研究

　　在这篇文章，我先演示IKAnalyzer分词器下载：IKAnalyzer

2.拷贝相关Jar包与配置

　　下载解压后把这两个jar文件复制到solr-7.4.0\server\solr-webapp\webapp\WEB-INF\lib中

solr 中文分词ik与hanlp solr分词器_xml

　　然后在solr-7.4.0\server\solr-webapp\webapp\WEB-INF\目录下新建一个classes目录，把下面三个文件复制进去

solr 中文分词ik与hanlp solr分词器_solr 中文分词ik与hanlp_02

进入之前创建的core 在solr-7.4.0\server\solr\newCore\conf下打开managed-schema.xml 添加如下代码：

<fieldType name="text_ik" class="solr.TextField">  
        <analyzer type="index" useSmart="false"
            class="org.wltea.analyzer.lucene.IKAnalyzer" />
        <analyzer type="query" useSmart="true"
            class="org.wltea.analyzer.lucene.IKAnalyzer" />
</fieldType>

在这里我们发现并没有schema.xml。这是因为Solr版本中（Solr5之前），在创建core的时候，Solr会自动创建好schema.xml，但是在之后的版本中，新加入了动态更新schema功能，这个默认的schema.xml确找不到了，在Solr5以后，这个schema文件已经不是默认生成好的了，它被取了一个名字managed-schema，并且没有后缀。乍一看，以为是打不开的文件，当然没有什么能难倒程序员的，用Sublime Text 3打开，发现了熟悉的文字，这不就是之前的schema.xml文件吗。

solr 中文分词ik与hanlp solr分词器_xml_03