SpringCloud微服务架构 文章目录微服务框架SpringCloud微服务架构17 初识ES17.6 安装IK 分词器17.6.1 分词器 17 初识ES17.6 安装IK 分词器17.6.1 分词器es在创建倒排索引时需要对文档分词;在搜索时,需要对用户输入内容分词。但默认的分词规则对中文处理并不友好。我们在kibana的DevTools中测试:# 测试分词器
POST /_analyze            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-07 15:54:08
                            
                                698阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            主要知识点:
			
• 知道IK默认的配置文件信息
			
• 自定义词库            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 07:28:19
                            
                                348阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            使命:尽自己所能给自学后端开发的小伙伴提供一个少有弯路的平台 回复:国服冰,即可领取我为大家准备的资料,里面包含整体的Java学习路线,电子书,以及史上最全的面试题!IK分词器什么是IK分词器?分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词,比如"我爱可星"会            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-25 22:23:34
                            
                                90阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.Hit 类这个类只包含几个状态位,用于判断匹配的类型。    结构很简单    主要是几个常量://Hit不匹配
private static final int UNMATCH = 0x00000000;
//Hit完全匹配
private static final int MATCH = 0x00000001;
//Hit前缀匹配
private static final int PREF            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-26 20:48:09
                            
                                129阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            IK分词器本文分为简介、安装、使用三个角度进行讲解。简介倒排索引众所周知,ES是一个及其强大的搜索引擎,那么它为什么搜索效率极高呢,当然和他的存储方式脱离不了关系,ES采取的是倒排索引,就是反向索引;常见索引结构几乎都是通过key找value,例如Map;倒排索引的优势就是有效利用Value,将多个含有相同Value的值存储至同一位置。分词器为了配合倒排索引,分词器也就诞生了,只有合理的利用Val            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-14 20:57:43
                            
                                291阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # Java中使用IK分词器
在Java语言中,处理中文文本时经常需要对文本进行分词操作。分词是将一段文本按照一定规则切分成多个词语的过程,常用于搜索引擎、自然语言处理等领域。而IK分词器是一个优秀的开源中文分词工具,能够帮助我们实现中文文本的分词操作。
## IK分词器简介
IK分词器是一个开源的中文分词工具,采用Java编写,具有高效、准确的分词效果。它支持细粒度和智能分词两种分词模式,            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-02-18 03:40:23
                            
                                733阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            IK 分词器和ElasticSearch集成使用支持中文分词的分词器有很多,word分词器、庖丁解牛、盘古分词、Ansj分词等,但我们常用的还是下面要介绍的IK分词器。IK分词器简介IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-21 11:23:09
                            
                                72阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            ES中分词器Analyzer的组成分词器是专门处理分词的组件,由三部分组成。Character filter:针对原始文本处理,例如去除htmlTokenizer:按照规则切分为单词Token Filter:将切分的单词进行加工,小写,删除stopwords,增加同义词以上三部分是串行处理的关系,除Tokenizer只能一个外,其他两个都可以多个。IK分词器仅实现了TokenizerIK分词器原理            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-14 17:29:59
                            
                                190阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、IK分词器简介        IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-02 08:37:36
                            
                                134阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、elasticsearch之ik分词器前言在知名的中分分词器中,ik中文分词器的大名可以说是无人不知,elasticsearch有了ik分词器的加持,要了解ik中文分词器,就首先要了解一下它的由来。ik分词器的由来IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IK Analyzer已经推出了4个大版本。最初,它是以开源项            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-21 21:13:10
                            
                                362阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词语言包,它是以Lucene为应用主体,结合词典分词和文法分析算法的中文词组组件。从3.0版本开始,IK发展为面向java的公用分词组件,独立Lucene项目,同时提供了对Lucene的默认优化实现。以下这篇博客是我在通读IK分词代码后对IK分词的理解,如果有什么地方出现纰漏请大家指正。回到最初如果让我自己在看IK分词之前自己写            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-03 14:46:12
                            
                                4阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、什么是ik分词器分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是每个字看成一个词,比如“超级喜欢不经意”会被分为“超”,“级”,“喜”,“欢”,“不”,“经”,“意”这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。 IK提供了两个分词算法:ik_smart和i            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-15 17:36:17
                            
                                160阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            linux elasticsearch以及ik分词器的安装说明 使用版本为7.9.0版本的elasticsearch以及ik分词器插件,非集群模式。准备工作 下载elasticsearch安装包以及ik分词器编译好的zip包,将相关包上传至服务器安装es 新建安装目录elasticsearch目录,解压elasticsearch-7.9.0-linux-x86_64.tar.gz包,进入解压后文件            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-04 19:37:47
                            
                                88阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            IK中文分词器的安装es中文分词器IK的使用添加一个索引库
PUT /test利用该索引库进行分词测试
GET /test/_analyze{
    "analyzer": "ik_smart",
    "text": "我爱你中国"
}分词结果{
    "tokens": [
        {
            "token": "我爱你",
            "start_            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-23 22:48:19
                            
                                150阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            (基于es5.4)先喵几眼github,按照步骤安装好分词器 link:https://github.com/medcl/elasticsearch-analysis-ik复习一下常用的操作1.查看集群健康状况
GET /_cat/health?v&pretty
2.查看my_index的mapping和setting的相关信息
GET /my_index?pretty
3.查看所有的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-06 16:36:55
                            
                                108阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、中文分词ik 注意Elasticsearch版本要对应ik的版本安装方式方式1.开源分词器 Ik 的github:https://github.com/medcl/elasticsearch-analysis-ik  下载后放到plugins文件夹里面方式 2.使用命令安装,要对应版本,7.14.1是对应es版本,不一样请自行更改,进入bin目录执行elasticsearc            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-12 04:31:35
                            
                                488阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Springboot集成elasticsearch 使用IK+拼音分词docker安装ES下载docker pull docker.elastic.co/elasticsearch/elasticsearch:6.3.2启动docker run -d --name="es" -p 9200:9200 -p 9300:9300 -e "cluster.name=elasticsearch" -e "            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-29 00:44:24
                            
                                305阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            IK分词器在是一款 基于词典和规则 的中文分词器。本文讲解的IK分词器是独立于elasticsearch、Lucene、solr,可以直接用在java代码中的部分。关于如何开发es分词插件,后续会有文章介绍。IK分词器的源码:Google Code,直接下载请点击这里。 一、两种分词模式IK提供两种分词模式:智能模式和细粒度模式(智能:对应es的IK插件的ik_sma            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-19 22:35:47
                            
                                79阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了。第一: 下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases ,这里你需要根据你的Es的版本来下载对应版本的IK,这里我使用            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-28 17:31:25
                            
                                1863阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            什么是IK分词器?分词:把一段中文或者别的划分成一个一个的关键字,我们在搜索的时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如"我爱魏一鹤"会被分成"我",“爱”,“魏”,“一”,“鹤”,这显然是不符合要求的,索引我们需要安装中文分词器IK来解决这个问题 如果要使用中文,建议使用ik分词器 IK提供了两个分词算法,i            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-21 21:59:48
                            
                                151阅读
                            
                                                                             
                 
                
                                
                    