一、概述 分析器(Analyzer) 分析器是包括两个部分:分词器和过滤器。 分词器顾名思意就是将句子分词单个的词 过滤器就是对分词的结果进行筛选,例如中文中将“的”“呀”这些对句子主体意思影响不大的词删除。英语中类似的就是”is”,”a”等等。 通常在索引和分词两端应该采用同样的分词器。solr自带了一些分词器,如果你需要使用自己公司的分词器,那么就需要修改solr模式(Solr sc
solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。例如:你们村村通工程知道吗?不分词的时候会是这样: 分词的话,我们把“村村通工程 ”名词化,分词结果为: 说说中文分词中文分词器有多中,常用的有 IKAnalyzer、 mmseg4j。前者最新版本更新到2012年,所以使用的时候要注意可能版本上有不兼容的情况, 由于它是一个开源的,基于java语言开发的
一、分词的概念分词:就是把我们要查询的数据拆分成一个个关键字,我们在搜索时,ElasticSearch会把数据进行分词,然后做匹配。默认的中文分词器会把每一个中文拆分,比如“迪丽热巴”,会拆分成“迪”,“丽”,“热”,“巴”,显然,这并不符合我们的要求,所以ik分词器(中文分词器)能解决这个问题。二、IK分词器的分词算法ik分词器存在两种分词算法:ik_smart:称为智能分词,网上还有别的称呼:
转载
2023-07-13 15:14:39
0阅读
[ 什么是二分查找 ] 二分查找又称为折半查找,该算法的思想是将数列按序排列,采用跳跃式方法进行查找,即先以有序数列的中点位置为比较对象,如果要找的元素值小于该中点元素,则将待查序列缩小为左半部分,否则为右半部分。以此类推不断缩小搜索范围。[ 二分查找的条件 ]二分查找的先决条件是查找的数列必须是有序的。对于需要频繁执行插入和删除操作的数据集来说,维护有序的排序会带来不小的工作量,不建议
转载
2023-09-27 13:33:50
69阅读
关于solr7.4搭建与配置可以参考 solr7.4 安装配置篇 在这里我们探讨一下分词的配置目录 关于分词 配置分词 验证成功1.关于分词 1.分词是指将一个中文词语拆成若干个词,提供搜索引擎进行查找,比如说:北京大学 是一个词那么进行拆分可以得到:北京与大学,甚至北京大学整个词也是一个语义 2.市面上常见的分词工具有 IKAnalyzer 
1、 solr配置solrconfig.xmlsolrconfig.xml这个配置文件可以在你下载solr包的安装解压目录的D:\solr-4.10.4\example\solr\collection1\conf中找到,这个配置文件内容有点多,主要内容有:使用的lib配置,包含依赖的jar和Solr的一些插件;组件信息配置;索引配置和查询配置,下面详细说一下索引配置和查询配置.2、索引indexC
原创
2017-02-09 15:16:55
3373阅读
里面可以配置多个网站,但并不建议这么做。所有的core都存放在一个目录下,这个
转载
2023-04-28 12:32:40
85阅读
solr服务器配置好在搜索时经常会搜出无关内容,把不该分的词给分了,导致客户找不到自己需要的内容,那么我们就从配置词典入手解决这个问题。
首先需要知道自带的词典含义:
停止词:停止词是无功能意义的词,比如is 、a 、are 、”的”,“得”,“我” 等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉。
扩展词库:就是不想让哪些词被分开,让他们分成一个词。
同义词:
转载
2018-07-20 23:58:00
170阅读
2评论
一、现状说一下1、Solr已经可以连接MySQL2、MySQL全量与增量也了解了,增量需要手动触发,job还没做(跟Java相关的后续说)3、没有中文分词,搜索就不是很完美二、准备工作1、计划用开源的IK分词库,直达Github2、上篇文章是这个,可以先了解下: 全量导入与增量导入三、开整1、下载jar包,失效的话,请到Github上去拿最新的jar包2、jar包放到solr目录solr...
原创
2022-11-25 11:10:08
206阅读
Solr可以用AND、|| 布尔操作符 表示查询的并且,
用OR、&& 布尔操作符 表示或者
用NOT、!、-(排除操作符不能单独与项使用构成查询)表示非
如果要用在查询的时候使用类似sql的in(1,2,3,4)
可以这样post_id:(1 2 3 4)(每个id之间加空格)或者post_id:(1 OR 2 OR 3 OR 4)或者post_id:1 OR post_id
转载
2018-10-09 11:07:00
406阅读
2评论
这个本质上还是Lucene的analyzer chain,Solr的只是方便了使用:通过配置xml文件就可以把tokenizer和filter链接起来。我们有时候需要在自己代码里使用这个chain。本文记录怎么做。
原创
2016-04-07 09:15:42
1184阅读
资料准备•solr7.0下载•IK分词器下载•拼音分词器下载solr文件目录(只讲一下7有些变化的目录)•web目录:solr7/server/solr_webapp/webapp/•home目录:solr7/server/solr•bin目录:solr7/bin创建Core运行solr进入bin目录cd./solr7/bin执行solr./solrstartp8000ps:停止和重启分别是(st
转载
2022-04-16 23:40:36
581阅读
下载IK分词的包:IKAnalyzer2012FF_hf1.zip然后进行解压1、/usr/local/services/solr/solr-4/usr/local/services/solr/solr-4.10.3/example/solr/collection1/conf中添加 <!-- IK --> <fieldType name="text_ik
原创
2017-09-27 08:27:51
1499阅读
在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下: 2、在IKAnalyzer相关的jar包(IKAnalyzer2012_u6.jar 本博客不提供下载)放在{SOLR_HOME}...
转载
2015-05-28 15:00:00
118阅读
2评论
一. solr.TextField 允许用户通过 分析器 来定制 索引和查询 的 fieldType。分析器包括 一个分词器(tokenizer)和多个过滤器(filte
原创
2023-05-10 16:07:48
137阅读
简介SolrJ是操作Solr的JAVA客户端,它提供了增加、修改、删除、查询Solr索引的JAVA接口。SolrJ针对 Solr提供了Rest 的HTTP接口进行了封装, SolrJ底层是通过使用httpClient中的方法来完成Solr的操作。SolrJ/Solr 跨版本兼容性SolrJ通常向后保持兼容性,可以使用新版本的SolrJ访问较旧的Solr,反之亦然。建议使用同Solr s
资料准备•solr7.0下载•IK分词器下载•拼音分词器下载solr文件目录(只讲一下7有些变化的目录)•web目录:solr7/server/solr_webapp/webapp/•home目录:solr7/server/solr•bin目录:solr7/bin创建Core运行solr#进入bin目录$cd./solr7/bin#执行solr$./solrstart-p8000ps:停止和重启分
转载
2018-03-12 17:02:13
2825阅读
IKAnalyer3.2.8 下载http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8%20bin.zip&can=2&q=1.2 IK 分词器的安装 IKAnalyer3.2.8 下载将IKAnalyzer3.2.5发行包解压,复制IKAnalyzer3.2.8Stabl...
原创
2023-05-16 00:56:52
49阅读
一、Solr入门1.1 对于数据库的查询的select * from t_goods where goodsName like “%手机%” ;问题:1,这个查询速度快不快?2,对于goodsName 是否添加了索引(假设Name like “%手
原创
2022-10-27 11:05:03
162阅读
Solr可以用AND、|| 布尔操作符 表示查询的并且,
用OR、&& 布尔操作符 表示或者
用NOT、!、-(排除操作符不能单独与项使用构成查询)表示非
如果要用在查询的时候使用类似sql的in(1,2,3,4)
可以这样post_id:(1,2,3,4)或者post_id:1 OR post_id:2 OR post_id:3 OR post_id:4
转载
2018-08-13 18:41:00
115阅读
2评论