hive sql 建表语句

原创

mob64ca12d0a366 2023-09-24 08:54:57 ©著作权

文章标签 建表 Hive 数据 文章分类 Hive 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12d0a366的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hive SQL 建表语句及示例

引言

Hive是建立在Hadoop之上的一种数据仓库基础设施，它提供了数据的存储、查询和分析功能。Hive使用类似于SQL的查询语言HiveQL来处理数据，但底层的存储和计算是由Hadoop完成的。

在Hive中，建表语句是创建数据表的基础。通过合理地定义建表语句，可以更好地管理和组织数据。本文将详细介绍Hive SQL建表语句的使用方法，并提供具体的代码示例。

建表语句的基本语法

Hive SQL建表语句的基本语法如下所示：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
(column1 data_type [COMMENT 'description'],
 column2 data_type [COMMENT 'description'],
 ...
)
[COMMENT 'table description']
[PARTITIONED BY (col_name data_type [COMMENT 'description'], ...)]
[CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[TBLPROPERTIES (property_name=property_value, ...)]

建表语句详解

CREATE: 用于创建表。
EXTERNAL: 可选关键字，表示创建的表是一个外部表，即数据存储在外部文件系统中，Hive仅管理表的元数据。
IF NOT EXISTS: 可选关键字，表示如果表已经存在，则忽略本次创建操作。
table_name: 表名，用于标识要创建的表。
column1, column2, ...: 列名和数据类型，用于定义表的列。
- data_type: 列的数据类型，如INT, STRING, DOUBLE等。
- COMMENT: 可选关键字，用于为列添加描述信息。
COMMENT: 可选关键字，用于为表添加描述信息。
PARTITIONED BY: 可选关键字，用于指定表的分区字段。
CLUSTERED BY: 可选关键字，用于指定表的聚集字段。
SORTED BY: 可选关键字，用于指定表的排序字段。
num_buckets: 聚集表时的桶数。
ROW FORMAT: 可选关键字，用于指定数据行的格式。
STORED AS: 可选关键字，用于指定数据的存储格式。
TBLPROPERTIES: 可选关键字，用于指定表的属性。

代码示例

下面是一个示例，展示了如何使用Hive SQL建表语句创建一个简单的表：

CREATE TABLE IF NOT EXISTS employees (
  id INT COMMENT 'Employee ID',
  name STRING COMMENT 'Employee Name',
  age INT COMMENT 'Employee Age'
)
COMMENT 'Table storing employee information'
PARTITIONED BY (country STRING COMMENT 'Employee Country')
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;

在上面的示例中，我们创建了一个名为employees的表，它有四个列：id、name、age和country。其中，id和age的数据类型为整型，name和country的数据类型为字符串。每一列都有相应的描述信息。

此外，表employees还有一个country的分区字段，用于将数据按照国家进行分区存储。表的数据行格式为以制表符分隔的文本文件，存储格式为TEXTFILE。

甘特图示例

下面是一个使用mermaid语法中的gantt标识的甘特图示例，展示了一个数据仓库建设项目的进度安排：

gantt
    dateFormat  YYYY-MM-DD
    title 数据仓库建设项目进度安排

    section 数据采集
    需求分析                           :done,    des1, 2019-01-01,2019-01-05
    数据源接入                          :done,    des2, 2019-01-06,2019-01-15
    数据抽取和清洗                      :active,  des3, 2019-01-16,2019-01