多角度带你认清Kylin的工作原理

原创

大数据梦想 2022-02-23 10:44:27 ©著作权

©著作权归作者所有：来自51CTO博客作者大数据梦想的原创作品，请联系作者获取转载授权，否则将追究法律责任

在之前的博客中，博主已经为大家带来了Kylin的简单介绍，环境搭建以及简单入门使用。本篇博客，博主为大家带来的是关于Kylin工作原理的介绍!

多角度带你认清Kylin的工作原理_Kylin

Kylin的工作原理

Apache Kylin的工作原理本质上是 MOLAP（多维立方体分析）。

电商的销售数据，可以从时间的维度来观察，也可以细化从时间和地区的维度来观察。

统计时，可以把维度值相同的记录聚合在一起，然后应用聚合函数做累加、平均、去重计数等聚合计算。

例如：

多角度带你认清Kylin的工作原理_Hive_02

关于数据立方体Cube

为什么叫立方体？

Apache Kylin的工作原理是对数据模型做Cube预计算，并利用计算的结果加速查询。具体工作过程如下:

高效OLAP分析：

Apache Kylin系统可以分为在线查询和离线构建两部分。

在线查询模式主要处于上半部分，离线构建处于下半部分。

在线查询

多角度带你认清Kylin的工作原理_Hadoop_05

离线构建

多角度带你认清Kylin的工作原理_Hive_06

多角度带你认清Kylin的工作原理_HBase_07

多角度带你认清Kylin的工作原理_Hadoop_08

以下为Kylin技术架构的具体内容：

数据源主要是Hadoop Hive，数据以关系表的形式输入，且必须符合星形模型，保存着待分析的用户数据。根据元数据的定义，构建引擎从数据源抽取数据，并构建Cube
Kylin可以使用MapReduce或者Spark作为构建引擎。构建后的Cube保存在右侧的存储引擎中，一般选用HBase作为存储
完成了离线构建后，用户可以从上方查询系统发送SQL进行查询分析
Kylin提供了各种Rest API、JDBC/ODBC接口。无论从哪个接口进入，SQL最终都会来到Rest服务层，再转交给查询引擎进行处理
SQL语句是基于数据源的关系模型书写的，而不是Cube

■ Kylin在设计时，刻意对查询用户屏蔽了Cube的概念

■ 分析师只需要理解简单的关系模型就可以使用Kylin，没有额外的学习门槛，传统的SQL应用也很容易迁移

■ 查询引擎解析SQL，生成基于关系表的逻辑执行计划，然后将其转译为基于Cube的物理执行计划，最后查询预计算生成的Cube并产生结果，整个过程不会访问原始数据源