想要学好、用好Elasticsearch,首先要了解其核心概念、名词和属性。这就好比想要看懂地图,首先要知道地图里常用的标记符号一样。
Elasticsearch的核心概念有索引词(term)、节点(Node)、集群(Cluster)、Shards、Replicas、Index、Type、Document、Settings、Mapping和Analyzer,其含义分别如下所示。
1.索引词(term)
在Elasticsearch中索引词(term)是一个能够被索引的精确值。foo、Foo、FOO几个单词是不同的索引词。索引词(term)是可以通过term查询进行准确的搜索。在lucene中就有索引词的概念,lucene在经过语言分析器之后就得到了索引词。
2.文本(text)
文本是一段普通的非结构化文字。通常,文本会被分析成一个个的索引词,存储在Elasticsearch的索引库中。为了让文本能够进行搜索,文本字段需要事先进行分析;当对文本中的关键词进行查询的时候,搜索引擎应该根据搜索条件搜索出原文本。在lucene中就有String Field域,String类型的Field域不支持分词,支持索引和存储。
3.节点(node)
节点是组成Elasticsearch集群的基本服务单元,集群中的每个运行中的Elasticsearch服务器都可称之为节点。
4.集群(cluster)
集群由一个或多个节点组成,对外提供服务,对外提供索引和搜索功能。
Elasticsearch的集群是由具有相同cluster.name (默认值为elasticsearch)。此名称是很重要的,因为每个节点只能是集群的一部分,当该节点被设置为相同的集群名称时,就会自动加入集群。当需要有多个集群的时候,要确保每个集群的名称不能重复,否则,节点可能会加入错误的集群。
请注意,一个节点只能加入一个集群。
在Elasticsearch集群中,节点的状态有Green、Yellow和Red三种,分别如下所述。
① Green:绿色,表示节点运行状态为健康状态。所有的主分片和副本分片都可以正常工作,集群100%健康。
② Yellow:黄色,表示节点的运行状态为预警状态。所有的主分片都可以正常工作,但至少有一个副本分片是不能正常工作的。此时集群依然可以正常工作,但集群的高可用性在某种程度上被弱化。
③ Red:红色,表示集群无法正常使用。此时,集群中至少有一个分片的主分片及它的全部副本分片都不可正常工作。虽然集群的查询操作还可以进行,但是也只能返回部分数据(其他正常分片的数据可以返回),而分配到这个有问题分片上的写入请求将会报错,最终导致数据丢失。
5.分片(shard)
分片。当索引的数据量太大时,受限于单个节点的内存、磁盘处理能力等,节点无法足够快地响应客户端的请求,此时需要将一个索引上的数据进行水平拆分。拆分出来的每个数据部分称之为一个分片。一般来说,每个分片都会放到不同的服务器上。进行分片操作之后,索引在规模上进行扩大,性能上也随之水涨船高的有了提升。Elasticsearch依赖Lucene,Elasticsearch中的每个分片其实都是Lucene中的一个索引文件,因此每个分片必须有一个主分片和零到多个副本分片。
当一个设置有多分片的索引中写入数据时,是通过路由来确定具体写入哪个分片中的,因此在创建索引时需要指定分片的数量,并且分片的数量一旦确定就不能更改。当查询索引时,需要在索引对应的多个分片上进行查询。Elasticsearch会把查询发送给每个相关的分片,并汇总各个分片的查询结果。对上层的应用程序而言,分片是透明的,即应用程序并不知道分片的存在。
在Elasticsearch中,默认为一个索引创建5个主分片,并分别为每个主分片创建一个副本。
6.复制(replica)
即备份,也可称之为副本。副本指的是对主分片的备份,这种备份是精确复制模式。
每个主分片可以有零个或多个副本,主分片和备份分片都可以对外提供数据查询服务。
当构建索引进行写入操作时,首先在主分片上完成数据的索引,然后数据会从主分片分发到备份分片上进行索引。
当主分片不可用时,Elasticsearch会在备份分片中选举出一个分片作为主分片,从而避免数据丢失。一方面,备份分片既可以提升Elasticsearch系统的高可用性能,又可以提升搜索时的并发性能;另一方面,备份分片也是一把双刃剑,即如果备份分片数量设置得太多,则在写操作时会增加数据同步的负担。
7.路由(routing)
当存储一个文档的时候,它会存储在唯一的主分片中,具体哪个分片是通过散列值进行选择。(所以路由就是计算散列值计算需要路由到哪个分片)
默认情况下,这个值是由文档的ID生成。如果文档有一个指定的父文档,则从父文档ID中生成,该值可以在存储文档的时候进行修改。
注意:每个Elasticsearch分片是一个Lucene的索引。有文档存储数量限制,你可以在一个单一的Lucene索引中存储的最大值为lucene-5843,极限是2147483519(=integer.max_value-128)个文档。你可以使用_cat/shards API监控分片的大小。
8.索引(index)
索引是具有相同结构的文档集合。类似的数据放在一个索引,非类似的数据放不同索引, 一个索引也可以理解成一个关系型数据 库。
lucene中就有document文档的操作,其实就是对索引的操作。
例如,可以有一个客户信息的索引,包括一个产品目录的索引,一个订单数据的索引。
在系统上索引的名字全部小写,通过这个名字可以用来执行索引、搜索、更新和删除操作等。在单个集群中,可以定义多个你想要的索引。
9.类型(type)
在索引中,可以定义一个或多个类型,类型是索引的逻辑分区。在一般情况下,一种类型被定义为具有一组公共字段的文档。
代表document属于index中的哪个类别(type)也有一种说法一种type就像是数据库的表,
比如 dept 表, user 表。
在查询时如果没有该值,则表示需要在整个索引中查询。
例如,让我们假设你运行一个博客平台,并把所有的数据存储在一个索引中。在这个索引中,你可以定义一种类型为用户数据,一种类型为博客数据,另一种类型为评论数据。
ES 5.x 中一个 index 可以有多种 type 。
ES 6.x 中一个 index 只能有一种 type 。
ES 7.x 以后 要逐渐移除 type 这个概念。
10.文档(document)
文档是存储在Elasticsearch中的一个JSON格式的字符串。它就像在关系数据库中表的一行。
每个存储在索引中的一个文档都有一个类型和一个ID,每个文档都是一个JSON对象,存储了零个或者多个字段,或者键值对。
原始的JSON文档被存储在一个叫作_source的字段中。当搜索文档的时候默认返回的就是这个字段。
11.设置(Settings)
Settings是对集群中索引的定义信息,比如一个索引默认的分片数、副本数等。
12.映射(mapping)
映射像关系数据库中的表结构,每一个索引都有一个映射,它定义了索引中的每一个字段类型,以及一个索引范围内的设置。
mapping定义了每个字段的类型等信息。相当于关系型数据库中的表结构。
常用数据类型: text 、 keyword 、 number 、 array 、 range 、 boolean 、 date 、 geo_point 、 ip 、
nested 、 object
Mapping表示中保存了定义索引中字段(Field)的存储类型、分词方式、是否存储等信息,其实就是底层对lucene中Field域的配置。也有点类似于关系数据库(如MySQL)中的表结构信息。
在Elasticsearch中,Mapping是可以动态识别的。如果没有特殊需求,则不需要手动创建Mapping,因为Elasticsearch会根据数据格式自动识别它的类型。
当需要对某些字段添加特殊属性时,如定义使用其他分词器、是否分词、是否存储等,就需要手动设置Mapping了。
一个索引的Mapping一旦创建,若已经存储了数据,就不可修改了。
13.分析(analysis)
Analyzer表示的是字段分词方式的定义。一个Analyzer通常由一个Tokenizer和零到多个Filter组成。在Elasticsearch中,默认的标准Analyzer包含一个标准的Tokenizer和三个Filter,即Standard Token Filter、Lower CaseToken Filter和Stop Token Filter。
14.字段(field)
文档中包含零个或者多个字段,字段可以是一个简单的值(例如字符串、整数、日期),也可以是一个数组或对象的嵌套结构。字段类似于关系数据库中表的列。每个字段都对应一个字段类型,例如整数、字符串、对象等。字段还可以指定如何分析该字段的值。
lucene中,一个document就是有多个Field组成的。Field由3大属性组成存储类型、分词方式、是否存储等信息
15.来源字段(source field)
默认情况下,你的原文档将被存储在_source这个字段中,当你查询的时候也是返回这个字段。这允许你可以从搜索结果中访问原始的对象,这个对象返回一个精确的JSON字符串,这个对象不显示索引分析后的其他任何数据。
16.主键(ID)
ID是一个文件的唯一标识,如果在存库的时候没有提供ID,系统会自动生成一个ID,文档的index/type/id必须是唯一的。