ElasticSearch1、ElasticSearch学习随笔之基础介绍 2、ElasticSearch学习随笔之简单操作 3、ElasticSearch学习随笔之java api 操作 4、ElasticSearch学习随笔之SpringBoot Starter 操作 5、ElasticSearch学习随笔之嵌套操作 6、ElasticSearch学习随笔之分词算法 7、ElasticSear
转载
2024-08-09 15:55:37
14阅读
由于elasticSearch版本更新频繁,此笔记适用ES版本为 7.10.2此笔记摘录自《Elasticsearch搜索引擎构建入门与实战》第一版文中涉及代码适用于kibana开发工具,其他如es-head则语法会不太相同elasticSearch学习笔记03-分词es的分词功能十分强大且复杂,此篇来详细了解此篇不适合小白入门,不对分词基本概念做过多解释1.测试分词器先测试standard分词器
转载
2023-12-31 15:46:57
87阅读
1、es分词:分词是将文本转换成一系列单词的过程,也可以叫文本分析,在ES里面称为Analysis;2、分词器:分词器是ES中专门处理分词的组件,英文为Analyzer,它的组成如下: character filter:字符过滤器,对文本进行字符过滤处理,如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器,多个按配置顺序依次进
转载
2023-09-12 16:52:09
110阅读
分词搜索引擎的核心是倒排索引(这里不展开讲),而倒排索引的基础就是分词。所谓分词可以简单理解为将一个完整的句子切割为一个个单词的过程。在 es 中单词对应英文为 term。我们简单看个例子:ES 的倒排索引即是根据分词后的单词创建,即 我、爱、北京、天安门这4个单词。这也意味着你在搜索的时候也只能搜索这4个单词才能命中该文档。实际上 ES 的分词不仅仅发生在文档创建的时候,也发生在搜索的时候,如下
转载
2023-10-26 22:06:17
114阅读
Lucene介绍Lucene简介最受欢迎的java开源全文搜索引擎开发工具包。提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索功能,或者是以此为基础建立起完整的全文检索引擎。 是Apache的子项目,网址:http://lucene.apache.org/Lucene用途
转载
2024-10-18 15:02:10
18阅读
一、Es插件配置及下载Es下载地址:https://www.elastic.co/cn/downloads/past-releases/elasticsearch-5-6-9es可视化工具kibana下载地址:https://www.elastic.co/cn/downloads/past-releases/kibana-5-6-91.IK分词器的下载安装关于IK分词器的介绍不再多少,一言以蔽之,
转载
2024-03-07 12:43:54
76阅读
1、索引原理1.1、倒排索引倒排索引(Inverted Index) 也叫反向索引,有反向索引必有正向索引。通俗来说,正向索引通过key找Value,反向索引是通过value找key。ES底层在检索时底层使用的就是倒排索引1.2、索引模型现有索引和映射如下:{
"products":{
"mappings":{
"properties":{
"descrip
转载
2023-12-21 11:06:23
64阅读
一,倒排索引(Inverted Index)ElasticSearch引擎把文档数据写入到倒排索引(Inverted Index)的数据结构中,倒排索引建立的是分词(Term)和文档(Document)之间的映射关系,在倒排索引中,数据是面向词(Term)而不是面向文档的。一个倒排索引由文档中所有不重复词的列表构成,对于其中每个词,有一个包含它的文档列表 示例: 对以下三个文档去除停用词后构造倒排
转载
2023-10-07 10:16:36
152阅读
AnalysisAnalysis 解析器由三个模块=character filters(字符过滤器), tokenizers(标记器), and token filters(标记过滤器)组成Analysis 中的自定义分词analysis 基本概念 === 全文索引中会用到Tokenizer(分词器)对文档分词,提取token(词元),讲token进一步处理如大小写转换的算法叫Filter(过滤器
转载
2024-07-01 14:12:12
65阅读
文章目录一、本地文件读取方式二、远程扩展热更新 IK 分词三、重写ik源码连接mysql 一、本地文件读取方式首先进入elasticsearch目录的plugins目录下,查看目录结构 2.进入confg目录下 创建文件mydic.dic 并添加:“我是中国人” 3.打开config目录下 IKAnalyzer.cfg.xml配置文件 vim IKAnalyzer.cfg.xml 修改内容如下:
转载
2024-03-21 09:46:18
109阅读
一、需求因为需要对搜索结果进行一个统一化的评分,因此需要仔细研究ES本身的评分规则从而想办法把评分统一。省流:无法确切统一化二、ES查询评分规则之前有说过ES的查询评分原理,那么仔细思考之后就会发现,长文本搜索对应的score会比短文本搜索的score高很多:score=单个分词评分之和,长文本对应的词更多那么score就会更多。通过在查询中设置参数”explain”:true来查看具体的分数来源
转载
2024-02-15 20:45:27
152阅读
## 什么是分词
```
把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。
```## es内置分词器
```
- standard:默认分词,单词会被拆分,大小会转换为小写。
- simple:按照非字母分词。大写转为小写。
- whitespace:按照空格分词。忽略大小写。
- stop:去除无意义单
转载
2023-12-28 08:27:02
49阅读
在ES中,词项搜索也叫term搜索,term就有词项的意思。词项检索的意思就是说我输入一个词汇,在检索的时候不会把你输入的这个词汇做分词,匹配条件就是完整的输入的词汇,但是文档插入的时候该分词还是分词。下面会有例子说明。 全文检索不一样,全文检索就是按照分词插入,分词匹配,分词处理输入条件。一、基于Term的查询1、简介term是表达语义最小的单位,搜索和利用统计语言模型进行自然语言处理都需要处理
转载
2024-04-24 15:34:29
81阅读
ES的默认中文分词效果太差了,稍微长一点的词句就完全匹配不到,于是选择使用安装IK中文分词器来实现索引的分词。参考:https://www.bbsmax.com/A/6pdDqDaXzw/
一、安装官网教程:https://github.com/medcl/elasticsearch-analysis-ik,注意版本对应的问题
1.下载 从此处下载预构建包:
转载
2023-11-23 15:06:52
153阅读
分词查询接口http://localhost:9200/_analyze
{
"analyzer":"ik\_max\_word",
"text":"文档数据库"
}分词解析{
"111": [
{
"111": "文档",
"start\_offset": 0,
"end\_offset": 2
转载
2024-07-19 07:52:36
47阅读
前言我们通过前面两篇文章的学习,基本解es,但还不足以应对我们平时的开发任务,因此我们还需要全面深入的学习es技术。本篇文章会讲述很多底层内核级原理,所以我们需要集中精力深入体会。一 ES 内核级原理及相关概念1.1 分词器原理&介绍它指把一段语句,拆分成单个的单词。同时对每个单词进行normalization (时态转换,单复数转换)处理,以提升recall召回率(搜索的时候,增加能够搜
转载
2024-05-05 15:37:04
188阅读
# ES IK分词在Java中的应用
在自然语言处理(NLP)领域,分词是一个至关重要的步骤,尤其在处理中文文本时,这是因为中文没有像英语那样的空格来标识单词的边界。在Java开发环境中,使用ES(Elasticsearch)和IK分词器可以非常方便地实现中文分词的功能。本文将介绍如何在Java中使用ES的IK分词器,并提供相应的代码示例。
## 什么是ES和IK分词器?
Elasticse
# 在Java中实现Elasticsearch不分词的索引和查询
Elasticsearch(ES)是一个强大的搜索引擎,常用来处理和检索大量数据。对于一些特定的查询场景,我们可能希望ES在索引和查询时不对文本进行分词处理。这通常适用于需要精确匹配的场景,比如用户ID、产品编号等。本文将逐步带领你实现“ES不分词 Java”的项目,包含流程、相关代码及解释。
## 任务流程概述
以下是实现“
原创
2024-10-13 05:04:57
16阅读
# 使用 Java 实现 es 分词
## 一、流程
首先,让我们来看一下实现“Java使用 es分词”的整个流程:
| 步骤 | 操作 |
| ------ | ------ |
| 1 | 创建一个 Elasticsearch 客户端 |
| 2 | 准备要分词的文本 |
| 3 | 调用 Elasticsearch 的分词接口 |
| 4 | 解析分词结果 |
## 二、具体步骤及代
原创
2024-05-16 06:41:00
134阅读
# Java ES分词匹配
在Java开发中,经常会涉及到对字符串进行分词匹配的操作。而Elasticsearch作为一款开源的全文搜索引擎,提供了强大的分词功能,可以帮助开发者快速实现文本的索引和搜索。本文将介绍如何在Java中利用Elasticsearch的分词功能进行匹配操作。
## Elasticsearch分词匹配
Elasticsearch内置了一些常用的分词器,可以根据需求选择
原创
2024-07-10 03:55:18
18阅读