文章目录分词器Analysis 和 AnalyzerAnalyzer 组成内置分词器内置分词器测试创建索引设置分词中文分词器 (IK分词器)安装IKIK使用扩展词、停用词配置 分词器Analysis 和 AnalyzerAnalysis: 文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词(Analyzer)。Analysis是通过Analyzer来实现的。分词就是将文档通            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-25 22:22:57
                            
                                100阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、ES-pinyin分词器安装该安装地址可以参考github开源项目elasticsearch-analysis-pinyin手动安装手动下载安装包,安装包地址:https://github.com/medcl/elasticsearch-analysis-pinyin/releases,需要注意的是要下载与自己版本一致的,版本不一致的可能会有问题。在es的安装地址下,plugins文件夹中创建            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-15 06:25:04
                            
                                200阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、分词器的作用一.规范化:normalization我觉得这个图用来描述规范化是非常恰当的,其中有一些不通用的词汇,比如Mom’s,经过规范化处理会变成mom,一些无意义单词比如 is an会被去掉。1、分词未进行规范化2、分词已进行规范化二.字符过滤器字符过滤器是在分词之前进行的,过滤掉一些无用的字符。在,其中有《》,有’,有.在查询的时候是不需要这些符号的。1、HTML过滤器#删除索引
DE            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-24 23:25:22
                            
                                71阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1 介绍主要介绍索引请求的基础API操作,使用postman进行请求,接口请求的前缀地址统一为elasticsearch 部署IP地址+端口号(例如 http://192.168.51.4:9200 。2 内置分词器分词器介绍Standard Analyzer默认分词器,按词切分,小写处理Simple Analyzer按照非字母切分(符号被过滤), 小写处理Stop Analyzer小写处理,停用            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-08 22:57:39
                            
                                107阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录ES分词器介绍什么是分词器分词器的组成Character filtersTokenizersToken filters分词的过程写入时分词搜索时分词测试分词效果分词器的分类使用示例以Standard Analyzer为例测试分析效果其他:Normalizers(规范器) ES分词器介绍什么是分词器分词属于ES的文本分析功能,是将文本(如任何的电子邮件的正文),转换成 tokens / t            
                
         
            
            
            
            elasticsearch 默认分词器为 standard分词器,即:不指定分词器默认使用standard分词器修改默认分词器:PUT index
{
    "settings":{
        "analysis":{
            "analyzer":{
                "caseSensitive":{
                    "filter            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-10 00:24:48
                            
                                207阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录一、ES优化1.限制内存2.文件描述符3.语句优化二、中文分词器 ik0.引出1.插入数据2.查询数据3.配置中文分词器0)注意:1)创建模板方式2)本地配置文件修改方式3)远程扩展字典一、ES优化1.限制内存1.启动内存最大是32G
2.服务器一半的内存全都给ES
3.设置可以先给小一点,慢慢提高
4.内存不足时
	1)让开发删除数据
	2)加节点
	3)提高配置
5.关闭swap空间2.文            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-07 13:50:04
                            
                                202阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、es分词:分词是将文本转换成一系列单词的过程,也可以叫文本分析,在ES里面称为Analysis;2、分词器:分词器是ES中专门处理分词的组件,英文为Analyzer,它的组成如下: character filter:字符过滤器,对文本进行字符过滤处理,如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器,多个按配置顺序依次进            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-12 16:52:09
                            
                                110阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录分词器Elasticsearch默认提供的常见分词器standard analyzersimple analyzerwhitespace analyzerlanguage analyzer2 安装中文分词器2.1进入容器2.2安装IK2.3重启容器2.4 离线安装分词器2.4测试IK分词器 分词器Elasticsearch默认提供的常见分词器standard analyzer要切分的语句:S            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-04 10:58:58
                            
                                117阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            IK中文分词器的安装es中文分词器IK的使用添加一个索引库
PUT /test利用该索引库进行分词测试
GET /test/_analyze{
    "analyzer": "ik_smart",
    "text": "我爱你中国"
}分词结果{
    "tokens": [
        {
            "token": "我爱你",
            "start_            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-23 22:48:19
                            
                                150阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            ik分词器的使用一、下载并安装1.1 已有作者编译后的包文件1.2 只有源代码的版本1.3 安装ik分词插件二、ik分词器的模式2.1 ik_smart演示2.2 ik_max_word演示2.3 standard演示三、ik分词器在项目中的使用四、ik配置文件4.1 配置文件的说明4.2 自定义词库五、参考链接 一、下载并安装GitHub下载地址:Releases · infinilabs/a            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-16 18:33:27
                            
                                118阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            linux elasticsearch以及ik分词器的安装说明 使用版本为7.9.0版本的elasticsearch以及ik分词器插件,非集群模式。准备工作 下载elasticsearch安装包以及ik分词器编译好的zip包,将相关包上传至服务器安装es 新建安装目录elasticsearch目录,解压elasticsearch-7.9.0-linux-x86_64.tar.gz包,进入解压后文件            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-04 19:37:47
                            
                                88阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            第一步下载 elasticsearch-analysis-ikhttps://github.com/medcl/elasticsearch-analysis-ik/releases 一定要选择跟自己安装的版本一样的.第二步 解压在es的安装目录plugins下新建文件夹ik将分词器加压到这个目录第三步 启动es查看分词效果自定义扩展词 停用词找到IKAnalyzer.cfg.xml 查看内容如下&            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-10 08:35:29
                            
                                92阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Elasticsearch 内置的分词器对中文不友好,会把中文分成单个字来进行全文检索,不能达到想要的结果  看一个例子curl -XGET 'http://localhost:9200/_analyze?pretty&analyzer=standard' -d '
第二更新
'
#返回
{
  "tokens" : [ {
    "token" : "第",
    "start_of            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-30 19:57:01
                            
                                67阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            IK Analysis for ElasticsearchThe IK Analysis plugin integrates Lucene IK analyzer (http://code.google.com/p/ik-analyzer/) into elasticsearch, support customized dictionary.Analyzer: ik_smart , ik_max_            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-25 08:15:39
                            
                                82阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            (基于es5.4)先喵几眼github,按照步骤安装好分词器 link:https://github.com/medcl/elasticsearch-analysis-ik复习一下常用的操作1.查看集群健康状况
GET /_cat/health?v&pretty
2.查看my_index的mapping和setting的相关信息
GET /my_index?pretty
3.查看所有的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-06 16:36:55
                            
                                108阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            官网文档1. 自定义分词器当内置分析仪无法满足您的需求时,您可以创建 custom使用以下各项的适当组合的分析器:tokenizer内置或自定义的标记器。(需要)char_filter内置或自定义字符过滤器的可选数组 。filter内置或自定义令牌过滤器的可选数组 。position_increment_gap在为文本值数组建立索引时,Elasticsearch在一个            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-16 11:08:52
                            
                                301阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            4.添加IK分词器 4.1 添加原因 一般像solr和es这类搜索引擎自带的分词器对中文的分词效果都是非常差的,我们来看个例子。 
首先,我们先使用刚刚安装好的head插件来添加一个名为shop的索引,如图所示 
之后我们来看一下默认的分词器是如何来拆分’五常大米’这几个字的,在浏览器中输入
http://你的ip:9200/shop/_analyze            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-18 00:06:25
                            
                                45阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            下载6.4.3 配置: 表示数据存到哪里: 装好es以后,还要装中文的分词插件因为es默认支持英文分词,但不支持中文分词比如 互联网校招 会变成:互联网;校招两个词都是一个个字典 打开以后可以看到: 那如何更新新词呢? 停止词: https://www.getpostman.com能够模拟外部客户端,网页以发送http请求,提交给es服务器,实现往es中存数据。总结,安装了以下 1.elasti            
                
         
            
            
            
            内置分词器、中文分词器这篇博客主要讲:分词器概念、ES内置分词器、ES中文分词器。   一、分词器概念 1、Analysis 和 AnalyzerAnalysis: 文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词。Analysis是通过Analyzer来实现的。当一个文档被索引时,每个Field都可能会创建一个倒排索引(Mapping可以设置不索引该Field)。倒排索            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-25 16:44:07
                            
                                146阅读
                            
                                                                             
                 
                
                                
                    