hive作为数据仓库的案例 hive数据仓库特点错误的是

转载

架构魔法之光 2023-07-12 22:36:30

文章标签 hive作为数据仓库的案例数据数据库 hive 文章分类 Hive 大数据

知识点：

Hive是数据仓库建模工具之一。

传统的关系数据库具有结构化程度高、独立性强、冗余度低，主要是操作型数据库和分析型数据库。

其中操作型数据库：主要用于业务支撑。一个公司往往会使用并维护若干个操作型数据库，这些数据库保存着公司的日常操作数据，比如商品购买、酒店预订、学生成绩录入等。

分析型数据库：主要用于历史数据分析。这类数据库作为公司的单独数据存储，负责利用历史数据对公司各主题域进行统计分析。

差别：数据组成差别 - 数据时间范围差别，数据组成差别 - 数据细节层次差别，数据组成差别 - 数据时间表示差别，技术差别 - 查询数据总量和查询频度差别，技术差别 - 数据更新差别，技术差别 - 数据冗余差别，功能差别 - 数据读者差别，功能差别 - 数据定位差别。

数据仓库就是为了解决数据库不能解决的问题而提出的。那么数据库无法解决什么样的问题呢？这个我们得先说说什么是OLAP和OLTP。

OLTP即对数据库的增删改查，速度快，数据内容不会特别大，事务的精准性特别高。

OLAP即对事务处理时对其要从多个维度进行分析，传统的数据库无法满足。

比尔恩门对数据仓库的定义为数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理中的决策制定。

数据仓库的特点：面向主题、集成性、企业范围、历史性、时变性。

Hive实现map-reduce任务：

hive作为数据仓库的案例 hive数据仓库特点错误的是_数据

Hive特点：1、可扩展性 2、延申性 3、容错

hive和传统数据库对比：

hive作为数据仓库的案例 hive数据仓库特点错误的是_hive作为数据仓库的案例_02

hive架构：

hive作为数据仓库的案例 hive数据仓库特点错误的是_hive_03

分区的目的：使查询范围变小，避免了全表扫描，加快了查询速率。

静态分区需要注意将相应的分区字段分批次导入。

静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进行判断。详细来说，静态分区的列是在编译时期通过用户传递来决定的；动态分区只有在SQL执行时才能决定。

数据分桶原理：Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

分桶优势：方便抽样，提高join查询效率

分桶表和分区表插入数据有所区别，分区表需要select 和指定分区，而分桶则不需要

hive语句的执行顺序：

1.from 
2.join on 或 lateral view explode(需炸裂的列) tbl as 炸裂后的列名
3.where
4.group by 
5.聚合函数 如Sum() avg() count(1)等
6.having 在此开始可以使用select中的别名
7.select 若包含over（）开窗函数，此时select中的内容作为窗口函数的输入，窗口中所选的数据范围也是在group by，having之后，并不是针对where后的数据进行开窗，这点要注意。需要注意开窗函数的执行顺序及时间点。
8.distinct
9.order by 
10.limit