文章目录前言方法一方法二方法三备注总结 前言Hive提供三种可以改变环境变量的方法,分别是:(1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。方法一在Hive中,所有的默认配置都在 ${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置
背景: 在互联网公司经常会用每10分钟为维度去统计某一个指标,这种统计我们称为分时数据。例如10分钟内某个渠道的安装数据,通过这个数据可以实时查看这个渠道质量好坏,如果这个渠道质量不行,那么就停止投放,避免不必要的损失。有时候会用每10分钟累计一次(我们称为分时累计数据),通过折线图去看这个数据的走势。分时累计数据: 例如,00:00-00:10累计一次,00:00-00:20累计一次,00:00
转载 2023-09-08 18:22:34
129阅读
Hive作为大数据分析领域常用的仓库工具,即使是现在流式计算如火如荼背景下,Hive依然倍受各大厂商挚爱。 使用Hive过程中,面对各种各样的查询需求,需要具有针对性的优化。下面内容就是摘抄自《Hadoop 数据仓库实践》一书中关于Hive优化部分内容。在此,感谢作业的辛勤付出。《Hadoop 数据仓库实践》一书值得品读。部分优化已经用于我的实际工作中。比如使用ORC存储文件、启用压缩、开始向量化
SPARK 【什么是Spark】 Spark是一种快速、通用、可扩展的大数据分析引擎目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户
Spark是基于内存计算的大数据并行计算框架。spark基于内存计算,提高了在大数据环境下数据处理的的实时性,同时保证了高容错性和高可伸缩性。                                    &nb
我们先来了解一下spark是什么:Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache 顶级项目。目前,Spark 生态系统已经发展成为一个包含多个子项目的集合,其中包含 SparkSQL、Spark Streaming、GraphX、ML
转载 2023-08-09 22:14:33
139阅读
背景最近发现集群主节点总有进程宕机,定位了大半天才找到原因,分享一下排查过程查询hiveserver2和namenode日志,都是正常的,突然日志就不记录了,直到我重启之后又恢复工作了。排查各种日志都是正常的,直到查看Grafana,发现内存满了 在这个节点下已无内存资源可用,在服务宕掉的节点内存使用突然下降,猜测是linux内核的杰作,故查询系统日志grep "Out of memory" /v
转载 2024-06-27 08:28:38
57阅读
一、hive基础Hive是一个基于Hadoop的数据仓库,使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层,设计目的是让SQL技能良好,但不熟悉MapReduce 、Java技能较弱的分析师可以查询海量数据。Hive提供了比较完整的SQL功能(本质是将SQL转换为MapReduce),自身最大的缺点就是执行速度慢(因为实际执行就是一系列的MapReduce作业,而MapR
由于Spark的计算本质是基于内存的,所以Spark性能程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者是内存。如果内存能够容纳得下所有的数据,那么网络传输和通信就会导致性能出现瓶颈。但是如果内存比较紧张,不足以放下所有的数据(比如在针对10亿以上的数据量进行计算时),还是需要对内存的使用进行性能优化的,比如说使用一些手段来减少内存的消耗。 Spark性能优化,其实主要就是在于
hive计算inner join报内存溢出:Caused by: java.lang.OutOfMemoryError: Java heap space处理方式:set mapred.child.java.opts=-Xmx1024m;再进行inner join计算
原创 2017-03-20 14:46:40
2300阅读
目录1.Spark概述Spark应用场景:Spark的特点:Spark  VS  MapReduce:2.Spark原理与架构Spark CoreSpark核心概念RDD:RDD的依赖关系RDD的Stage划分Spark重要角色Spark on Yarn-client的运行流程Spark on Yarn-cluster的运行流程 Yarn-client与Yarn-cl
转载 2024-03-14 07:42:04
38阅读
《大数据和人工智能交流》头条号向广大初学者新增C 、Java 、Python 、Scala、javascript 等目前流行的计算机、大数据编程语言,(一)Spark简介1、什么是sparkSpark是一种基于内存计算的开源框架。它于2009年诞生于美国加州大学伯克利分校AMPLab,它最初属于研究项目,后来在2010年正式开源,2013年成立apache基金项目,到2014年成为apache基
Hive 之 优化一、 Fetch 抓取二、 本地模式三、 表的优化3.1 小表、 大表 join3.2 大表 join 大表3.2.1 空 KEY 过滤3.2.2 空 key 转换3.3 MapJoin3.4 Group by(Map 端允许聚合)3.5 count(distinct) 去重3.6 笛卡尔积3.7 行列过滤3.8 动态分区调整四、 MR 优化4.1 合理设置 Map 数4.1.1
转载 2023-07-12 10:30:44
64阅读
在应用软件的过程中我们总会遇到各种个各样的问题,今天我们就来解决hive客户端查询报堆内存溢出的问题。hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space问题原因: hive内存默认为2
转载 2023-06-27 22:30:18
155阅读
前些天配置好的Hive,同样的SQL运行的好好的,今天却突然就不行了,报了如下的错误,真是抓破脑袋也没有想明白为什么。 2016-10-21 06:42:52,190 WARN org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicy: Failed to place enough replicas, still in n
转载 2023-08-28 13:37:46
237阅读
1、Mapper的影响因子 input_file_num:文件数量 input_file_size:文件大小 mapred.max.split.size(default 265M) mapred.min.split.size(default 1B) 切割算法(TextInputFormat切分) splitSize=max[minSize,min(maxSize,blockSize)]
转载 2024-06-11 08:24:43
147阅读
1 什么是Hive2 Hive的优缺点2.1 优点2.2 缺点3 Hive架构原理4 Hive和数据库比较4.1 查询语言4.2 数据存储位置4.3 数据更新4.4 索引4.5 执行4.6 执行延迟4.7 可扩展性4.8 数据规模1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并
转载 2024-08-20 21:58:58
51阅读
1、hive参数优化之默认启用本地模式 启动hive本地模式参数,一般建议将其设置为true,即时刻启用: hive (chavin)> set hive.exec.mode.local.auto; hive.exec.mode.local.auto=false 2、设置hive执行模式 hive (default)> set hive.mapred.mode; hive.m
转载 2023-08-18 23:21:19
84阅读
在使用union all的时候,系统资源足够的情况下,为了加快hive处理速度,可以设置如下参数实现并发执行 set mapred.job.priority=VERY_HIGH; set hive.exec.parallel=true;  设置map reduce个数 -- 设置map capacity set mapred.job.map.capacity=2000; set m
转载 2023-07-18 12:27:52
268阅读
目录har小文件归档hive调优参数hive 调优扩展优化动态分区属性数据建模 维度建模 har小文件归档--用来控制归档是否可用 set hive.archive.enabled=true; --通知Hive在创建归档时是否可以设置父目录 set hive.archive.har.parentdir.settable=true; --控制需要归档文件的大小
转载 2023-08-22 11:33:36
162阅读
  • 1
  • 2
  • 3
  • 4
  • 5