hive外部表关联hdfs上数据

原创

mob649e8153b214 2023-11-03 12:41:51 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e8153b214的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hive外部表关联HDFS上的数据

介绍

Apache Hive是一个基于Hadoop的数据仓库工具，它提供了一种类似于SQL的查询语言（HiveQL）来查询和分析存储在Hadoop集群上的大数据。Hive有两种类型的表：内部表和外部表。内部表的数据是由Hive自己管理和维护的，而外部表的数据存储在HDFS上，并由外部工具管理和维护。

本文将重点介绍如何在Hive中创建和使用外部表，以及如何关联HDFS上的数据。

创建外部表

在Hive中，可以使用CREATE EXTERNAL TABLE语句来创建外部表。下面是一个示例，创建一个名为employee_external的外部表，关联到HDFS上的/user/hive/warehouse/employee_data目录下的数据：

CREATE EXTERNAL TABLE employee_external (
  id INT,
  name STRING,
  age INT,
  salary FLOAT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/employee_data';

上面的代码指定了外部表的字段和数据格式，并且指定了数据存储的位置。ROW FORMAT DELIMITED语句指定了数据的行格式，FIELDS TERMINATED BY ','指定了字段的分隔符，STORED AS TEXTFILE指定了数据存储的格式为文本文件。LOCATION指定了数据存储的位置。

使用外部表

创建好外部表后，就可以像使用内部表一样使用它了。可以使用标准的HiveQL查询语句来查询外部表的数据。

下面是一个示例查询外部表的语句：

SELECT * FROM employee_external WHERE age > 30;

上面的代码将返回外部表employee_external中年龄大于30的所有员工记录。

外部表和HDFS的关系

外部表和HDFS的关系是一对多的关系，即一个外部表可以关联到多个HDFS上的数据。这使得Hive可以灵活地处理不同格式和结构的数据。

外部表的关联是通过指定LOCATION参数来实现的。该参数指定了外部表数据存储的位置。可以将外部表关联到一个目录，也可以关联到一个包含多个文件的目录。

当使用外部表查询时，Hive会自动读取关联的HDFS上的数据，并将其视为表中的数据。这意味着可以使用HiveQL查询语句来处理这些数据，就像处理内部表一样。

示例

为了更好地理解外部表关联HDFS上的数据，我们将演示一个示例。

假设我们有一个HDFS上的/user/hive/warehouse/employee_data目录，它包含以下员工数据文件（employee.txt）：

1,John Doe,25,5000.00
2,Jane Smith,35,8000.00
3,Robert Johnson,40,10000.00
4,Lisa Brown,30,6000.00

我们可以使用以下代码来创建外部表并查询数据：

CREATE EXTERNAL TABLE employee_external (
  id INT,
  name STRING,
  age INT,
  salary FLOAT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/employee_data';

-- 查询年龄大于30的员工
SELECT * FROM employee_external WHERE age > 30;

上面的代码创建了一个名为employee_external的外部表，关联到HDFS上的/user/hive/warehouse/employee_data目录下的数据。然后，查询了年龄大于30的员工。

序列图

下面是一个示例的序列图，展示了创建外部表和查询数据的过程。

sequenceDiagram
  participant HiveClient
  participant HiveServer2
  participant NameNode
  participant DataNode
  
  HiveClient ->> HiveServer2: 发送创建表请求
  HiveServer2 ->> NameNode: 查询表存储位置
  NameNode -->> HiveServer2: 返回存储位置
  HiveServer2 ->> DataNode: 读取数据文件
  DataNode -->> HiveServer2: 返回数据文件内容