hive create as 带分区

原创

mob649e81593bda 2023-08-01 10:51:00 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e81593bda的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hive中的CREATE AS语句与分区表

Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言HiveQL，使用户能够通过类似于SQL的语法查询和分析存储在Hadoop集群上的大规模结构化和半结构化数据。在Hive中，我们可以使用CREATE AS语句创建新表，并可以选择将结果数据存储为分区表。本文将介绍Hive中的CREATE AS语句以及如何使用它创建分区表。

CREATE AS语句简介

CREATE AS语句是Hive中的一种DDL（数据定义语言）语句，用于在Hive中创建新表。该语句的语法如下：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[ROW FORMAT row_format]
[STORED AS file_format]
AS select_statement;

其中，table_name是要创建的新表的名称；IF NOT EXISTS是可选的，表示如果表已经存在则不会创建；PARTITIONED BY是可选的，用于指定表的分区方式；ROW FORMAT是可选的，用于指定表的行格式；STORED AS是可选的，用于指定表的存储格式；AS后面的select_statement是用于指定新表的数据来源的SELECT语句。

创建分区表

在Hive中，分区表是按照一个或多个列的值分割数据的一种表。分区表可以提高查询性能，因为它可以将数据按照特定的列值进行分割，使查询只需要扫描与查询条件匹配的分区，而不是全表扫描。下面是一个使用CREATE AS语句创建分区表的示例：

CREATE TABLE IF NOT EXISTS employees_partition
(
    name STRING,
    age INT,
    gender STRING
)
PARTITIONED BY (country STRING, state STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
AS
SELECT name, age, gender, country, state
FROM employees;

上述示例中，我们使用CREATE AS语句创建了一个名为employees_partition的新表。该表具有与employees表相同的列名和数据类型，同时还使用PARTITIONED BY子句指定了两个分区列：country和state。通过STORED AS指定了表的存储格式为TEXTFILE。最后，我们使用AS后面的SELECT语句从employees表中选取数据，并将结果存储到新表中。

查询分区表

在创建了分区表后，我们可以使用HiveQL查询语句对分区表进行查询。下面是一个查询分区表的示例：

SELECT name, age
FROM employees_partition
WHERE country = 'China' AND state = 'Beijing';

上述示例中，我们使用SELECT语句从employees_partition表中选取了name和age列，然后使用WHERE子句指定了查询条件，只查询country为'China'且state为'Beijing'的记录。通过使用分区列来过滤数据，查询只需要扫描与查询条件匹配的分区，而不需要扫描整个表，从而提高了查询性能。

总结

通过Hive中的CREATE AS语句和分区表，我们可以方便地创建新表，并按照特定的列值将数据分割为多个分区，从而提高查询性能。CREATE AS语句可以将查询结果作为新表的数据来源，而分区表可以根据分区列的值进行数据分割和过滤。希望本文能够帮助你理解Hive中的CREATE AS语句和分区表的使用。