hive 中 not like 和 not in 效率 hive nosql

转载

mob6454cc63af5e 2023-10-19 10:26:58

文章标签 hive nosql mapreduce 数据库大数据 文章分类 Hive 大数据

1. 实例说明Hive数据模型

Hive数据模型：

Tables
所有数据存储在HDFS中的一个目录
Primitives: numeric, boolean, string and timestamps
Complex: Arrays, maps and structs
Partitions
表可以按照某个字段的值划分分区
对表格进行分区处理(Partition)，便于局部数据的查询操作，如按时间分区、按地域分区等，将具有相同性质的数据存储到同一磁盘块上，从而加快查询效率。
Buckets
分区数据可以进一步分成桶，进一步提升查询效率，且使数据抽样更有效。

实例说明

可以将一个城市中所有的百货大楼看做数据库，每个不同的百货大楼构成不同的表(Tables)，大楼内部不同的楼层通常出售的商品也不同，可以分成比如美食区，服装区等等，不同的分区对应着Hive数据模型的Partitions，不同的分区中又出售不同的品牌，比如服装区可分为Adidas，Nike等，不同的品牌则对应Hive数据模型中的Buckets。

hive 中 not like 和 not in 效率 hive nosql_hive