hive的sql查询在yarn上看不到

原创

mob64ca12e2442a 2023-12-03 05:53:48 ©著作权

文章标签 Hive SQL ci 文章分类 Hive 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12e2442a的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hive的SQL查询在YARN上看不到

Hive是一种基于Hadoop的数据仓库工具，它允许用户使用SQL语法对大规模数据集进行查询和分析。然而，有时候我们会遇到一个问题，就是在使用Hive进行SQL查询时，查询过程在YARN资源管理器上看不到。本文将深入探讨这个问题，并提供解决方案。

问题描述

当我们在Hive中执行一个SQL查询时，Hive会将查询转换为一系列的MapReduce作业，并将它们提交到YARN资源管理器上进行处理。在正常情况下，我们可以通过YARN的Web界面或命令行工具来查看这些作业的进度和状态。然而，有时候我们会发现，尽管查询正在进行，但在YARN上却找不到对应的作业。

问题原因

这个问题的原因是Hive版本2.1.0之后引入了一个新的查询引擎，称为Tez。Tez是一种高性能的执行引擎，基于YARN的资源管理器，可以更好地处理复杂的查询。然而，由于Tez的引入，查询过程的执行方式有所改变，导致在YARN上无法直接看到相应的作业。

解决方案

为了解决这个问题，我们可以通过在Hive中设置相应的参数来改变查询的执行方式，使其在YARN上可见。具体而言，我们需要在Hive会话中执行以下语句：

set hive.execution.engine=mr;

此命令将查询引擎设置为MapReduce，而不是默认的Tez。这样一来，查询将以传统的MapReduce作业的形式提交到YARN上，我们就可以像往常一样查看它们的状态和进度了。

示例

让我们通过一个示例来演示这个问题和解决方案。假设我们有一个包含有关用户活动的大型数据集，并希望计算每个用户的总活动时间。我们可以使用Hive来执行以下查询：

select user_id, sum(activity_duration) as total_duration
from user_activity
group by user_id;

在默认情况下，这个查询将使用Tez引擎进行执行，查询过程在YARN上看不到。为了解决这个问题，我们需要将查询引擎切换为MapReduce。在Hive会话中执行以下语句：

set hive.execution.engine=mr;

然后重新执行查询，我们将能够在YARN上看到相应的作业，以及它们的状态和进度。

序列图

下面是一个描述Hive查询过程的序列图，使用mermaid语法表示：

sequenceDiagram
    participant Client
    participant HiveServer2
    participant YARN ResourceManager
    participant YARN NodeManager
    
    Client->>HiveServer2: 发送SQL查询请求
    HiveServer2->>YARN ResourceManager: 提交查询作业
    YARN ResourceManager->>YARN NodeManager: 分配资源
    YARN NodeManager->>YARN NodeManager: 启动Map任务
    YARN NodeManager->>YARN NodeManager: 启动Reduce任务
    YARN NodeManager-->>YARN ResourceManager: 返回任务状态
    YARN ResourceManager-->>HiveServer2: 返回作业状态
    HiveServer2-->>Client: 返回查询结果