6、Druid的Roll up详细介绍及示例

原创

一瓢一瓢的饮 2023-05-22 14:45:20 博主文章分类：大数据相关组件介绍 ©著作权

©著作权归作者所有：来自51CTO博客作者一瓢一瓢的饮的原创作品，请联系作者获取转载授权，否则将追究法律责任

Apache Druid 系列文章

(文章目录)

本文介绍了druid 的 rool-up过程以及位图索引构建过程、实际的应用过程。本文分为1个部分，即介绍与示例。

Apache Druid可以通过roll-up在数据摄取阶段对原始数据进行汇总。 Roll-up是对选定列集的一级聚合操作，它可以减小存储数据的大小。本文将讨论在一个示例数据集上进行roll-up的结果。

Roll-up聚合前在这里插入图片描述

Roll-up聚合后在这里插入图片描述 1、位图索引

以下为一个DataSource（表）中存储的数据

数据结构说明：第一列为时间，Appkey和area都是维度列，value为metric列在这里插入图片描述

按天聚合后的数据，如下。说明：Druid会在导入阶段自动对数据进行Rollup，将维度相同组合的数据进行聚合处理在这里插入图片描述

Druid通过建立位图索引，来实现快速进行数据查找。索引位图可以看作是HashMap<String, Bitmap>

索引如下所示说明：0表示行内没有，1表示行内有该数据在这里插入图片描述

select 
    sum(value) 
from AD_areauser 
where 
    time=’2023-01-04’ and 
    Appkey in (‘appkey1’,’appkey2’) and 
    area=’beijng’

执行过程

根据时间段定位到segment
Appkey in ('appkey1', 'appkey2') and area=’beijing’查到各自的bitmap ( appkey1(1000) or appkey2(0110) ) and ( beijing (1100) ) = (1000 or 0110 ) and ( 1100 )= 1110 and 1100 =1100
符合条件的列为第一行和第二行，这两行的 sum(value) 的和为26.

select 
    area, 
    sum(value) 
from AD_areauser 
where 
    time=’2023-01-04’ and  
    Appkey in (‘appkey1’,’appkey2’) 
group by area

执行过程

根据时间段定位到segment
Appkey in (‘appkey1’,’appkey2’)查到各自的bitmap appkey1(1000) or appkey2(0110) = ( 1110 )
将第一行、第二行、第三行取出来
在内存中做分组聚合，结果为：beijing：26， shanghai：13

以上，介绍了roll up的过程以及位图索引的实现过程。