一、分词的概念分词:就是把我们要查询的数据拆分成一个个关键字,我们在搜索时,ElasticSearch会把数据进行分词,然后做匹配。默认的中文分词器会把每一个中文拆分,比如“迪丽热巴”,会拆分成“迪”,“丽”,“热”,“巴”,显然,这并不符合我们的要求,所以ik分词器(中文分词器)能解决这个问题。二、IK分词器的分词算法ik分词器存在两种分词算法:ik_smart:称为智能分词,网上还有别的称呼:
转载 2023-07-13 15:14:39
22阅读
下载IK分词的包:IKAnalyzer2012FF_hf1.zip然后进行解压1、/usr/local/services/solr/solr-4/usr/local/services/solr/solr-4.10.3/example/solr/collection1/conf中添加 <!-- IK -->    <fieldType name="text_ik
原创 2017-09-27 08:27:51
1519阅读
  关于solr7.4搭建与配置可以参考 solr7.4 安装配置篇  在这里我们探讨一下分词的配置目录  关于分词  配置分词  验证成功1.关于分词  1.分词是指将一个中文词语拆成若干个词,提供搜索引擎进行查找,比如说:北京大学 是一个词那么进行拆分可以得到:北京与大学,甚至北京大学整个词也是一个语义  2.市面上常见的分词工具有 IKAnalyzer&nbsp
转载 2024-05-16 17:26:23
114阅读
一、现状说一下1、Solr已经可以连接MySQL2、MySQL全量与增量也了解了,增量需要手动触发,job还没做(跟Java相关的后续说)3、没有中文分词,搜索就不是很完美二、准备工作1、计划用开源的IK分词库,直达Github2、上篇文章是这个,可以先了解下: 全量导入与增量导入三、开整1、下载jar包,失效的话,请到Github上去拿最新的jar包2、jar包放到solr目录solr...
原创 2022-11-25 11:10:08
228阅读
# SolrIK分词与HanLP词典的结合使用 在信息检索和自然语言处理领域,分词技术扮演着至关重要的角色。特别是在中文处理上,由于汉字的复杂性,分词显得尤为重要。本文将介绍如何将Solr中的IK分词与HanLP词典结合使用,以提升搜索的准确性和效率。 ## 什么是SolrIK分词 [Apache Solr]( 是一个开源搜索平台,是构建于Apache Lucene之上的。它提供了强大的
原创 10月前
76阅读
简介:    它是一种开放源码的、基于 Lucene Java 的搜索服务器,易于加入到 Web 应用程序中。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。您可以坚持使用 Solr 的表现优异的基本搜索功能,也可以对它进行扩展从而满足企业的需要。So
原创 2015-09-23 19:27:11
1054阅读
介绍solr简介、ik分词器简介  1、solr简介... 11.1、什么是lucene?... 11.2、lucene和solr是什么关系?... 12、Solr安装,配置... 23、IK分词器安装
原创 2022-10-19 13:58:57
143阅读
项目在此基础上:solr7.2.1+tomcat8.5.37+jdk8安装配置 github:https://github.com/magese/ik-analyzer-solr 历史版本下载地址:https://search.maven.org/search?q=g:com.github.mage
转载 2020-04-20 12:08:00
143阅读
solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。 例如:你们村村通工程知道吗? 不分词的时候会是这样:  分词的话,我们把“村村通工程 ”名词化,分词结果为:  说说中文分词 中文分词器有多中,常用的有 IKAnalyzer、 mmseg4j。
转载 7月前
8阅读
1.下载IK分词器支持5.5.4的    http://download.csdn.net/detail/wang_keng/95354912.需要把分析器的jar包添加到solr工程中的tomcat的WEB-INF/lib下  cp IKAnalyzer2012FF_u2.jar /usr/local/solr/tomcat/webapps/so
原创 2017-04-22 20:35:55
1980阅读
 分词技术是搜索技术里面的一块基石。很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深。但一旦涉及效果问题,分词器上就可以做很多文章。例如, 在我们实际用作电商领域的搜索的工作中,类目预判的实现就极须依赖分词,至少需要做到可以对分词器动态加规则。再一个简单的例子,如果你的优化方法就是对不同的词分权重,提高一些重点词的权重的话,你就需要依赖并理解分词器。  &
原创 2016-10-21 00:20:14
8204阅读
一、Solr简介 二、solr安装 三、solr基础 四、IK Analyzer(中文分词器)   一、Solr简介 Solr是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。 Solr可以独立运行,运行在Jetty、Tomcat等这些Servlet容
转载 2021-01-25 18:23:00
357阅读
2评论
 solr本身对中文是不支持的,所以需要下载中文分词IK-analyzer  下载地址https://code.google.com/archive/p/ik-analyzer/downloads。自己本地系统是centos6.7,所以下载了https://storage.googleapis.com/google-code-archive-downloads/v2/code
原创 2016-05-17 15:17:03
3223阅读
1、准备工作到官网下载个jdk8安装上去[root@Track2solr]#rpm-ivhjdk-8u121-linux-x64.rpmPreparing...#################################[100%]Updating/installing...1:jdk1.8.0_121-2000:1.8.0_121-fcs##########################
原创 2019-03-21 11:43:49
10000+阅读
   1  solr索引和搜索过程:   2  分词器: 在创建索引时会用到分词器,在使用字符串搜索时也会用到分词器,这两个地方要使用同一个 ,所以对于不同的语言(规则),要用不同的分词...
原创 2023-04-20 18:49:19
232阅读
介绍window环境下solr6.3配置ik分词window环境下solr6.3配置ik分词一、环境1、solr6.3.02、JDK1
原创 2022-10-17 08:37:31
87阅读
目  录 1 测试目的... 3 2 测试方案... 3 2.1 测试环境... 3 2.2 参数配置... 3 2.2.1 schema.xml的调整... 3 2.2.2 solrconfig.xml的调整... 4 2.2.3 其他调整... 4 2.3 对比实验设计... 4 3 测试结果... 4 3.1 实验结果... 4 3.2 数据分析... 5
原创 2011-06-01 13:43:47
4514阅读
1点赞
IK分词器插件什么是IK分词器?分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如 “我爱狂神” 会被分为"我","爱","狂","神",这显然是不符合要求的,所以我们需要安装中文分词ik来解决这个问题。如果要使用中文,建议使用ik分词器!IK提供了两个分词
转载 2023-11-06 15:55:45
124阅读
Es中默认的是标准分词器,对于属性类型是text类型的中文语句,进行了单字分词,英文语句是单词分词。 所以在搜索时,如果输入单词搜索,拆分成多个汉字搜索,搜索内容不准确。 故引入更加智能的IK分词器。IK分詞器的在线安装cd /opt/module/elasticsearch-6.8.0/bin ./elasticsearch-plugin install https://github.com/
转载 2024-04-11 14:03:11
98阅读
# 实现“nlp分词 ik分词”教程 ## 摘要 在本篇文章中,我将向你介绍如何使用ik分词器来进行nlp分词。我将详细描述整个流程,并提供每一步需要做的事情以及相应的代码示例。希望这篇教程能够帮助你快速入门并掌握这一技能。 ## 整体流程 首先,让我们来看一下实现“nlp分词 ik分词”的整体流程。我们可以用下面的表格展示步骤: ```mermaid flowchart TD
原创 2024-05-07 03:46:08
30阅读
  • 1
  • 2
  • 3
  • 4
  • 5