hive export命令 hive explain

转载

feiry 2024-05-14 21:28:50

文章标签 hive export命令 hive 数据 Hadoop 文章分类 Hive 大数据

一、推测执行

在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。

为了避免这种情况发生，Hadoop采用了推测执行（Speculative Execution）机制，它根据一定的法则推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。

设置开启推测执行参数：Hadoop的mapred-site.xml文件中进行配置

`<property> mapreduce.map.speculative</name> true</value> <description>If true, then multiple instances of some map tasks may be executed in parallel.</description> </property> <property> mapreduce.reduce.speculative</name> true</value> <description>If true, then multiple instances of some reduce tasks may be executed in parallel.</description> </property>`

<property>
mapreduce.map.speculative</name>
true</value>
  <description>If true, then multiple instances of some map tasks
               may be executed in parallel.</description>
</property>
 
<property>
mapreduce.reduce.speculative</name>
true</value>
  <description>If true, then multiple instances of some reduce tasks
               may be executed in parallel.</description>
</property>

不过hive本身也提供了配置项来控制reduce-side的推测执行：

`<property> hive.mapred.reduce.tasks.speculative.execution</name> true</value> <description>Whether speculative execution for reducers should be turned on. </description> </property>`

关于调优这些推测执行变量，还很难给一个具体的建议。

如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大大。

二、压缩

参考：Hive-压缩和存储（一）~（五）

三、执行计划（Explain）

1）基本语法

EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query

2）案例实操

（1）查看下面这条语句的执行计划

hive (default)> explain

hive export命令 hive explain_数据

hive (default)> explain select deptno, avg(sal) avg_sal from emp group by

hive export命令 hive explain_Hadoop_02

（2）查看详细执行计划

hive (default)> explain extended select * from emp;

hive (default)> explain extended select deptno, avg(sal) avg_sal from emp group by

（3）以下是在MySQL中的显示

hive export命令 hive explain_数据_03

EXPLAIN字段：

Table：显示这一行的数据是关于哪张表的

possible_keys：显示可能应用在这张表中的索引。如果为空，没有可能的索引。可以为相关的域从WHERE语句中选择一个合适的语句

key：实际使用的索引。如果为NULL，则没有使用索引。MYSQL很少会选择优化不足的索引，此时可以在SELECT语句中使用USE INDEX（index）来强制使用一个索引或者用IGNORE INDEX（index）来强制忽略索引

key_len：使用的索引的长度。在不损失精确性的情况下，长度越短越好

ref：显示索引的哪一列被使用了，如果可能的话，是一个常数

rows：MySQL认为必须检索的用来返回请求数据的行数

type：这是最重要的字段之一，显示查询使用了何种类型。从最好到最差的连接类型为system、const、eq_reg、ref、range、index和ALL

system、const：可以将查询的变量转为常量. 如id=1; id为主键或唯一键.

eq_ref：访问索引,返回某单一行的数据.(通常在联接时出现，查询使用的索引为主键或惟一键)

ref：访问索引,返回某个值的数据.(可以返回多行) 通常使用=时发生

range：这个连接类型使用索引返回一个范围中的行，比如使用>或<查找东西，并且该字段上建有索引时发生的情况(注:不一定好于index)

index：以索引的顺序进行全表扫描，优点是不用排序,缺点是还要全表扫描

ALL：全表扫描，应该尽量避免

Extra：关于MYSQL如何解析查询的额外信息，主要有以下几种

using index：只用到索引,可以避免访问表.

using where：使用到where来过虑数据. 不是所有的where clause都要显示using where. 如以=方式访问索引.

using tmporary：用到临时表

using filesort：用到额外的排序. (当使用order by v1,而没用到索引时,就会使用额外的排序)

range checked for eache record(index map:N)：没有好的索引.

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql 枚举值加索引 mysql 枚举类型需要索引吗

下一篇：下载Word2Vec模型 word2vec模型结构

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯