es聚合分组统计查询前五条 es聚合查询排序

转载

mob64ca140a1f7c 2024-03-17 11:10:40

文章标签 es聚合分组统计查询前五条 elasticsearch 字段聚合函数字段名 文章分类 架构后端开发

文章目录

什么是聚合操作？（MySQL）

1.聚合函数
2.聚合分组
3.聚合筛选
为什么不能在where语句中使用聚合函数，与having的区别?

ES的聚合查询（在Kibana中的原生操作）

1.聚合查询简介
elasticsearch聚合--桶（Buckets）和指标（Metrics）的概念
[3. 如何运行一个聚合查询]()
4. [ElasticSearch聚合查询报错：Text fields are not optimised for operations that require per-document field data（报错原因：需要聚合的字段不支持聚合或排序--比如，字段类型是text就不支持聚合排序）]()
5. [对于字段类型是text不支持聚合查询的解决办法]()

RestHighLevelClient的聚合查询API使用
最后附一个某个大佬的ES的API详解中文版

申明：本文是在实现ES聚合功能中，将过程中查找的多篇博客文献拼接在一起，参考到的博文全部在标题中附上了原文的超链接，分享出来仅是为了提做一个笔记以防忘记，并给大家提供一个参考。

什么是聚合操作？（MySQL）

聚合操作指的是在数据查找基础上对于数据进一步整理筛选行为，聚合操作也属于护具的查询筛选范围。

1.聚合函数

方法	功能
avg(字段名)	该字段的平均值
max(字段名)	该字段的最大值
min(字段名)	该字段的最小值
sum(字段名)	该字段所有记录的和
count(字段名)	统计该字段的记录个数

eg1 : 找出表中的最大攻击力国家的值？

select max(attack) from countries;

注意：此时select 后只能写聚合函数，无法查找其他字段，除非该字段值全都一样。（否则写了其他的属性,其他字段只返回那个字段的第一行数据。）

2.聚合分组

group by
给查询的结果分组
e.g. : 计算每个国家的平均攻击力

select country,avg(attack) from countries group by country;

3.聚合筛选

having语句
对分组聚合后的结果进行进一步筛选

eg1 : 找出平均攻击力大于105的国家的前2名,显示国家名称和平均攻击力
select country,avg(attack) from countries group by country having avg(attack) > 105 order by avg(attack) desc limit 2;

注意：

having语句必须与group by联用2.
having语句存在弥补了where关键字不能与聚合函数联合使用的不足，where只能操纵表中实际存在的字段。（意思是where关键中不能出现max(value)、count(country)这类的聚合函数）
第2条"where关键字不能与聚合函数联合使用"原因见下

为什么不能在where语句中使用聚合函数，与having的区别?

SQL语句的执行顺序

第一步：from 选择表
第二步：where 筛选条件，筛选对象–行
第三步：group by 将筛选出来的数据进行分组
第四步：having 筛选条件，筛选对象–组
第五步：select 选取最后的结果
第六步：order by 将结果按照特定顺序排列

聚合函数是针对结果集的，但是where条件并不是在查询出结果集之后运行的，所以“聚合函数”不能放在where条件中；
而因为having是对于结果集进行分组，所以聚合函数可以放在having中。

ES的聚合查询（在Kibana中的原生操作）

1.聚合查询简介

聚合查询可以将数据汇总为度量、统计或其他分析。

聚合查询主要分为三个类别:

Metric 指标聚合
Bucket 桶聚合
Pipeline 管道聚合

elasticsearch聚合–桶（Buckets）和指标（Metrics）的概念

在Elasticsearch的聚合中需要掌握两个核心的概念：桶（bucket）、指标（metric）

桶（bucket）: 满足特定条件的文档的集合

指标（metric）: 对桶内的文档进行聚合分析的操作

（ps:每个聚合都是一个或者多个桶和零个或者多个指标的组合。)

翻译成粗略的SQL语句来解释的话：

SELECT COUNT(color)　　—> 相当于指标

FROM table

GROUP BY color　　—>2　　相当于桶

桶在概念上类似于SQL的分组（GROUP BY）,而指标则类似于COUNT()、SUM()、MAX()等统计方法。

3. 如何运行一个聚合查询

GET /my-index-000001/_search
{
  "aggs": {
    "my-agg-name": {
      "terms": {
        "field": "my-field"
      }
    }
  }
}

说明：
aggs 说明采用的是聚合查询
my-agg-name 是聚合查询的名称
terms 说明采用的是Terms aggregation多值聚合：一个基于多桶值源的聚合，其中桶是动态构建的——每个唯一值一个桶。统计每个唯一值的个数。
field 指定需要统计的字段。

4. ElasticSearch聚合查询报错：Text fields are not optimised for operations that require per-document field data（报错原因：需要聚合的字段不支持聚合或排序–比如，字段类型是text就不支持聚合排序）

5. 对于字段类型是text不支持聚合查询的解决办法

对于text类型字段，fields中添加一个keyword，以及fields相关的属性详解，官网教程

官网对于fields属性作用的中文翻译：fields字段经常使用于用于不同目的索引相同字段。这是使用多字段的目的。举个例子，一个字符串类型能够被映射成text类型方便全文搜索，同时他也可以在排序或者聚合查询时被当做keyword类型。

PUT my-index-000001
{
  "mappings": {
    "properties": {
      "city": {
        "type": "text",
        "fields": {
          "keyword": { 
            "type":  "keyword"
          }
        }
      }
    }
  }
}

在已经构建了索引，想要在原索引的text字段的fields属性上再添加一个keyword多字段 1.查看索引类型结构

GET /my_index/_mapping
查询结果: { “my_index” : {
 “mappings” : {
 “_meta” : { },
 “_source” : {
 “includes” : [ ],
 “excludes” : [ ]
 }
 “numeric_detection” : false,
 “properties” : {
 …
 “my_field” : {
 “type” : “text”
 } } }

2.添加keyword类型

PUT /my_index/_mapping
{
  "properties": {
      "my_field": {
      "type": "text",
      "fields":{
        "keyword":{
          "type":"keyword",
          "ignore_above":256
        }
      }
    }
  }
}

但是在已经构建了索引，想要在原索引的text字段的fields属性上再添加一个keyword多字段。在添加之前的数据还是无法进行“聚合”、“排序”操作，只有在添加了多字段后的数据才可以被“聚合”、“排序”。

RestHighLevelClient的聚合查询API使用

import org.elasticsearch.client.RestHighLevelClient;
@Autowired
RestHighLevelClient restHighLevelClient;//把RestHighLevelClient放入spring容器中管理
//1、创建查询请求对象
SearchRequest searchRequest = new SearchRequest("参数是es索引名");
//2、创建搜索条件 builder对象  加入大多数搜索参数,提供在search中的request body的设置
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
//3、创建聚合查询对象
TermsAggregationBuilder aggBuilder = 
AggregationBuilders.terms("参数是聚合查询的builder对象名")                
.field("参数是es索引库中的聚合查询字段名")
// 第1个(terms)中的参数名字可以随意取,但是后面用到的时候名字要一一对应
// 第2个(field)中的参数与es库中的聚合查询字段名要完全一致

//4、将聚合查询搜索条件放入Builder对象
searchSourceBuilder.aggregation(aggBuilder);
//5、将条件Builder对象放入searchRequest查询对象之中
searchRequest.source(searchSourceBuilder);
//6、client客户端执行查询，并返回SearchResponse类型的返回结果
SearchResponse response = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
//7.聚合查询 的结果返回
Aggregations aggregations = response.getAggregations();
//8.标记对应分组名，以及该分组的数量
Map<String,Long> group = new HashMap<>();
for (Terms.Bucket bucket : aggregation.getBuckets()) {//这个是每种查询条件下 结果分类循环
//bucket.getKeyAsString() 查到的对应分组类型名
//bucket.getDocCount() 查询到的对应分组对应的数量
	group.put(bucket.getKeyAsString(),bucket.getDocCount());
}