hive命令行如何更改日志级别 hive yarn日志

转载

数据探索者11 2024-04-11 08:31:35

文章标签 hive命令行如何更改日志级别 hive tdengine 其他 Hive 文章分类 Hive 大数据

一、背景介绍

在前一篇文章TDengine在Apache Hive中的探索和实践中，我们通过对2.3.8版本Apache Hive的代码改造，使之支持查询TDengine数据源的数据，并支持关联查询多个不同数据源。

在使用过程中，我们陆续发现了一些问题，本文内容就是其中之一，特此记录下。

二、问题背景

我们在Hive创建了4张表，表名分别为fvp、dn、enpoint、student。

1.fvp和dn是TDengine类型的表 2.enpoint是Mysql类型的表

这三个表都是使用JdbcStorageHandler创建的。通过上一篇博文的分析，可知其底层对应的InputFormat都为JdbcInputFormat。

3.student是关联HDFS数据的表

由于是原生的Hive表，所以对应的InputFormat为TextInputFormat。

三、问题场景

在hive中执行如下sql，一共关联了上述4张表

select count(*) as count from fvp inner join endpoint on fvp.source_zone_code=endpoint.endpoint inner join student on student.name=fvp.source_zone_code inner join dn on fvp.source_zone_code=dn.fqdn  where fvp.source_zone_code='915J'

上述sql运行结束后，hive控制台偶尔报错，偶尔执行成功。

每次报错时截图如下

hive命令行如何更改日志级别 hive yarn日志_hive命令行如何更改日志级别

四、查看和分析YARN日志

因为Hive底层会生成MR任务执行在YARN上，所以我们去YARN上查看详细日志。访问IP:19888/jobhistory查看job列表，找到刚才执行的job。

1.查看日志

点击job id

hive命令行如何更改日志级别 hive yarn日志_Hive_02

由于我们设置了set mapred.map.tasks=22，所以此处生成了22个MapTask。

点进去

hive命令行如何更改日志级别 hive yarn日志_hive命令行如何更改日志级别_03

我们找其中一个失败的MapTask，点击进去看看

hive命令行如何更改日志级别 hive yarn日志_tdengine_04

继续点击logs

hive命令行如何更改日志级别 hive yarn日志_其他_05

日志如下，但是只展示了部分。点击here按钮查看详细日志

hive命令行如何更改日志级别 hive yarn日志_hive_06

详细日志如下

hive命令行如何更改日志级别 hive yarn日志_hive_07

2.日志解读

通过最后的日志截图，我们发现，当前处理失败的MapTask对应的切片是student表切片hdfs://CNSZ22PL0272:9000/user/hive/warehouse/student/student.txt:9+

前面说过，student表是HDFS上的数据，底层对应的InputFormat为TextInputFormat。

而观察截图最后的报错信息，可以看到是由TDengineDatabaseAccessor类（我自己在源码中写的类）中的getColumnNames方法抛出的，该方法里会使用JDBC-RESTful方式来获取TDengine表的字段。

伪逻辑如下：

//通过DBCP数据源获取连接
......

//切换到数据库
stmt.executeUpdate("use 数据库名");

//查询
stmt.executeQuery("select 字段1,字段2...字段n from 表名");

由此，引发的困惑是：

为什么Hive在处理HDFS数据源的数据时，会涉及到TDengine数据源的代码？难道是多个数据源关联时，底层的InputFormat会共用？

五、问题分析

1.确定InputFormat类与切片是否对应

这一步排查思路是，排查当多个不同数据源进行连接查询时，Hive能否根据不同数据源，找到正确的InputFormat。

当Hive解析sql后，会根据生成的物理执行计划提交MR任务，MR任务根据InputFormat生成切片。

所以我们先找到生成切片的代码。

hive命令行如何更改日志级别 hive yarn日志_tdengine_08

进入writeSplits方法后，最后进入如下逻辑，其中 job.getInputFormat()是CombineHiveInputFormat

hive命令行如何更改日志级别 hive yarn日志_其他_09

于是我们看看CombineHiveInputFormat的方法

hive命令行如何更改日志级别 hive yarn日志_hive_10

其中生成切片的过程很长，涉及到JdbcInputFormat和TextInputFormat的代码，但此处我们不关心。

我们只关心：

每个数据源的MapTask和其InputFormat是否对应得上

最终返回的切片，如下

hive命令行如何更改日志级别 hive yarn日志_hive_11

观察生成的切片，结论如下：

我们有4个数据源的表，在没有在HIve中手动设置mapred.map.tasks参数的情况下，Hive最终生成了5个切片（其中student占2个）。更重要的是，每个数据源的切片信息和其InputFormat是能对应得上的。

这说明Hive是可以根据不同数据源，找到正确的InputFormat的。

2. 加日志分析

既然每个数据源的切片信息和其InputFormat都能对应得上，说明多数据源关联时不会出现混淆的问题，那么只能进一步分析了。

通过上面YARN的日志

hive命令行如何更改日志级别 hive yarn日志_tdengine_12

发现每个MapTask类会调用到MapOperator的getConvertedOI方法，该方法中通过getDeserializer方法触发了TDengine相关类的代码

hive命令行如何更改日志级别 hive yarn日志_hive命令行如何更改日志级别_13

所以，我们可以尝试在getConvertedOI方法中加入日志，打印当前表名和切片信息

hive命令行如何更改日志级别 hive yarn日志_hive_14

3. 构建源码包并重新上传

我是在Hive项目的hive-exec模块的MapOperaor类中加入的日志代码，为了让代码在MR任务运行时生效，需要重新上传jar。

首先，使用maven构建hive-exec模块，并在Hive的lib目录下重新上传。我的hive的lib路径为

/app/hive/apache-hive-2.3.8-bin/lib

其次，还需要在hadoop的lib目录里重新上传（因为是分布式集群环境）。我的Hadoop的lib路径为

/app/hadoop/hadoop-3.3.0/share/hadoop/common/lib

当这些工作完成后，重新启动Hive。

六、再次分析

1.查看日志

我们再次运行同样的sql，按照同样步骤观察YARN某个MapTask任务的日志

hive命令行如何更改日志级别 hive yarn日志_其他_15

可以发现如下重要信息：

在任务处理切片依旧为student表切片的前提下，getConvertedOI方法一共调用了4次，每个表一次。在最后一次处理dn表信息时，抛出了异常(开头提到dn表是TDengine类型的表)。

2.最终的误解

通过上面信息，说明最开始就是我们误解了：

当多数据源关联查询时，每个MapTask都会去获取其他表的信息，这是Hive本身正常的逻辑，而不是当初我认为的InputFormat混淆。

而后来借助更详细的日志，才及时帮我们发现了这种误解。之所以耗费了这么大精力去证明这是个误会，还是因为我对Hive底层执行逻辑不了解导致的。

所以，解决方案是要搞明白为什么使用JDBC-RESTful方式来获取TDengine表的字段时会报错，而不是从Hive自身的逻辑里找答案。

七、问题解决

我使用的JDBC-RESTful方式来获取TDengine表字段，伪逻辑如下

//通过DBCP数据源获取连接
......

//切换到数据库
stmt.executeUpdate("use 数据库名");

//查询
stmt.executeQuery("select * from 表名");

在将该问题反馈给涛思公司的工程师后，得到的回复是

有可能是因为使用dbcp连接池，去不同的database查造成的。在查询sql中指定dbName应该就可以解决这个问题。

最终我使用如下方式解决了问题

//通过DBCP数据源获取连接
......

//查询
stmt.executeQuery("select * from 数据库名.表名");

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mongodb shutdown 停不下来 mongodb upset

下一篇：java 快速压缩视频代码 java压缩gif

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯