说明:我的elasticsearch(后文简称ES)版本为6.4.2,安装方式为安装包直接解压安装,安装包地址:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.2.tar.gz1,安装ES,在此不在详述,可参考官方文档:https://www.elastic.co/downloads/elasticsea            
                
         
            
            
            
            一、快速安装[gitHub地址克隆] (https://github.com/mde/ejs)
[官方网址] (https://www.ejs.co/)
[官方网址中文] (https://ejs.bootcss.com/)
[EJS模板资源] (https://github.com/mde/ejs/releases/tag/v2.5.8)<script src="./lib/ejs.js"            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-22 16:03:23
                            
                                42阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、中文分词      在介绍结巴中文分词前,先简单介绍一下中文分词。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。    最常见的分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-15 16:56:25
                            
                                86阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            5.1 版本请使用默认的配置文件逐一添加修改设置,切勿直接复制2.X配置文件2.x 版本的诸多配置项在5.1版本中均无法使用更多详细参数请参考官方文档https://www.elastic.co/guide/en/elasticsearch/reference/current/modules.html elasticsearch 2.X 集群配置参数示例:主节点 [host区域]:[es@ ~]$            
                
         
            
            
            
            文章目录xpack简介实验步骤ES集群的设置Kibana端Logstash 端测试 xpack简介在配置好es集群之后,可以选择开启安全认证功能。X-Pack 提供以下几个级别保护elastic集群1)用户验证
2)授权和基于角色的访问控制
3)节点/客户端认证和信道加密
4)审计实验步骤实验目的:为es集群开启 xpack安全认证,并在logstash和Kibana开启相应的用户认证。实验背景            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-06 19:17:00
                            
                                54阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            项目背景:    原本工业APP的知识文章之类的存储在MySQL中,但是在后期的开发中发现在查询的时候又不满足业务的模糊查询需求并且需要兼容前期的设计(ID为数值型的要求)。项目构建:    项目利用gradle构建,利用shadowJar插件来打包需要的程序代码,默认打包的包含程序代码和依赖,但是开发插件是不能将es打包会造成包冲突。代码如图:开发过程:&            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-17 14:20:08
                            
                                81阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                前提什么是倒排索引?Elasticsearch之分词器的作用Elasticsearch之分词器的工作流程
Elasticsearch之停用词
Elasticsearch之中文分词器Elasticsearch之几个重要的分词器        elasticsearch官方默            
                
         
            
            
            
            目录集成IK分词器扩展词典使用停用词典使用同义词典使用集成IK分词器        概要:IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。新版本的IKAnalyzer3.0发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。3.0特性:1)采            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-30 22:42:59
                            
                                24阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            elasticsearch使用中文分词器和拼音分词器,自定义分词器 
1. 到github 下载分词器 
上面有已经编译好打好的包。下载后在es安装目录下的plugins/目录下创建ik和pinyin两个文件夹,把下载好的zip包解压在里面。重启es就会生效了。github上readme.txt文件里有使用说明。注意下载的时候下载版本对应的,比如我            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-02 00:03:13
                            
                                389阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、IK分词器全民制作人,大家好,我是练习时长2年半的个人练习生亚瑟王,喜欢ES、钢琴、鼓励队友。ES默认的standard分词器对中文不友好,会将中文分割成一个个汉字。对于中文分词,目前比较常用的是IK分词器。IK分词器的作者对这个项目维护的比较积极,能紧跟ES的最新版本。安装IK分词器的教程网上太多了,我这里就不再赘述了。本篇博客仅仅记录我自己学习IK的一些小小心得。1. 创建测试的Mappi            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-18 08:21:08
                            
                                94阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近因业务中需要对数据库里面的数据进行多维度检索,完全依赖SQL已经无法满足业务的需求了,显然我们需要搜索技术的支持。这玩意也没啥可技术调研的,基本上就如下几种方案:自己搭建搜索引擎,采用ElasticSearch自己搭建搜索引擎,采用Solr使用云服务,使用阿里云的开放搜索产品或者ES产品业务场景:不需要数据实时同步数据量小、访问频次低,因此单机即可能提供各个字段的多维度模糊查询能简单快速上手,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-29 10:40:29
                            
                                64阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、谈谈分词与倒排索引的原理首先说分词是给检索用的。英文:一个单词一个词,很简单。I am a student,词与词之间空格分隔。中文:我是学生,就不能一个字一个字地分,我-是-学生。这是好分的。还有歧义的,使用户放心,使用-户,使-用户。人很容易看出,机器就难多了。所以市面上有各种各样的分词器,一个强调的效率一个强调的准确率。倒排索引:倒排针对的是正排。1. 正排就是我记得我电脑有个文档,讲了            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-04 21:45:28
                            
                                78阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            介绍在自然语言处理中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。中文分词是其他中文处理的基础Python3 jieba库的安装直接命令行输入:pip install jieba
百度PyPI,搜索下            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-14 10:54:41
                            
                                57阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            jieba库,它是Python中一个重要的第三方中文分词函数库。1.jieba的下载由于jieba是一个第三方函数库,所以需要另外下载。电脑搜索“cmd”打开“命令提示符”,然后输入“pip install jieba”,稍微等等就下载成功。(注:可能有些pip版本低,不能下载jieba库,需要手动升级pip至19.0.3的版本,在安装jieba库)当你再次输入“pip install jieba            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-05 17:46:05
                            
                                196阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Python jieba库的介绍与使用一、 jieba库简介与安装 简介:jieba库是一个进行中文分词的第三方库。可用来进行关键字搜索。 安装:在python3环境下输入:pip install jieba进行安装。 二、jieba库有三种分词模式精确模式:试图将句子最精确地切开,适合文本分析(默认是精确模式);全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,有冗余,不能解决歧义;            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-11 17:11:44
                            
                                174阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。b区别词取汉字“别”的声母。c连词取英语连词            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-20 06:05:25
                            
                                119阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            概述    结巴分词是一款非常流行中文开源分词包,具有高性能、准确率、可扩展性等特点,目前主要支持python,其它语言也有相关版本,好像维护不是很实时。分词功能介绍    这里只介绍他的主要功能:分词,他还提供了关键词抽取的功能。精确模式    默认模式。句子精确地切开,每个字符只会出席在一个词中,适合文本分析;Print "/".jo            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-14 15:29:52
                            
                                350阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            jieba库是Python中一个重要的第三方中文分词函数库,能够将一段中文文本分隔成中文词语序列,就像人结巴时说话一样。实例1:import jieba  #
f = open('data.txt','r')   # 导入文本数据
lines = f.readlines()
f.close()
f = open('out.txt','r+')  # 使用r+模式读取和写入文件
for line            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-09 09:56:43
                            
                                123阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            2021SC@SDUSC 文章目录jieba特点安装说明算法主要功能1. 分词更多代码阅读及测试(分词)2. 添加自定义词典载入词典调整词典更多代码阅读及测试(词典操作)3. 关键词提取基于 TF-IDF 算法的关键词抽取基于 TextRank 算法的关键词抽取基本思想:使用示例:更多代码阅读及测试(关键词提取)4. 词性标注更多代码阅读及测试(词性标注)5. 并行分词更多代码阅读及测试(并行分词            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-11 17:15:37
                            
                                207阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录一、分词器概念1、Analysis 和 Analyzer2 、Analyzer组成3、Elasticsearch的内置分词器二、ES内置分词器三、中文分词 一、分词器概念1、Analysis 和 AnalyzerAnalysis: 文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词。Analysis是通过Analyzer来实现的。当一个文档被索引时,每个Field都            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-22 10:35:23
                            
                                793阅读
                            
                                                                             
                 
                
                                
                    