1.Hive数据倾斜问题倾斜原因: 1)key分布不均匀 2)业务数据本身的特性 3)SQL语句造成数据倾斜解决方案:1)参数调节:①开启 Map 端聚合参数设置 hive.map.aggr=true 当选项设定为true,生成的查询计划会有两个MR Job.相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;②开启MapJoin参数设置 Set hi
转载 2023-07-29 14:18:22
109阅读
1. hive内部表和外部表的区别未被external修饰的是内部表,被external修饰的为外部表。区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定(如果没有LOCATION,Hive将在HDFS上的/user/hive/
转载 2023-07-21 16:20:22
186阅读
SQL Server 数据库设计与管理中,有时我们会遇到“SQL Server Union Join 考题”的类型问题。这类题目通常需要运用数据库的基本知识与逻辑处理能力,掌握 SQL 查询的基本语法,尤其是 UNION 和 JOIN 的使用。下面,我将分享我在解决这类考题过程中的思路和步骤。 ## 环境预检 为了解决 SQL Server 的 Union Join 考题,首先我们需要对环
原创 7月前
57阅读
一、数据迁移#导出现有数据库数据:mysqldump -u用户名 -p密码 数据库名称 >导出文件路径 # 结构+数据mysqldump -u用户名 -p密
(1)写出一条Sql语句: 取出表A中第31到第40记录(SQLServer, 以自动增长的ID作为主键, 注意:ID可能不是连续的。)]
转载 2011-11-16 00:18:00
58阅读
2评论
## SQL Server 中的 DBLink(远程数据库链接)实现教程 在 SQL Server 中实现远程数据库链接(DBLink),能够让我们从一个 SQL Server 数据库查询另一个 SQL Server 数据库中的数据。以下是实现这一功能的完整流程和步骤。 ### 流程概览 | 步骤 | 描述 | |------
原创 8月前
15阅读
1.利用ansact-SQL语句完成下列操作(1)创建一个名为jiaoxue的数据库,该数据
原创 2022-09-23 17:15:36
139阅读
Hive由Facebook开发,用于解决海量结构化日志的数据统计,于2008年贡献给
原创 精选 2023-03-20 12:24:35
1441阅读
一、SparkSQL 概述 1.1  SparkSQL是什么         Spark SQL是Spark用于结构化数据处理的Spark模块。1.2 Hive and SparkSQL        我们之前学习过hivehive是一个基于had
转载 2023-08-26 20:48:09
142阅读
前言Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。通常来说,Hive只支持数据查询和加载,但后面的版本也支持了插入,更新和删除以及流式api。Hive具有目前Hadoop上最丰富最全的SQL语法,也拥有最慢最稳定的执行。是目前Hadoop上几乎标准的ETL和数据仓库工具。Hive这个特点与其它AdHo
转载 2023-07-12 21:30:23
71阅读
算法算数表达式求解(不用递归)1.HIVE和HBASE区别1. 两者分别是什么?   Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Ha
转载 2023-12-10 21:39:40
39阅读
SQLContext的使用创建一个Scala项目,创建一个主类SQLContextApppackage com.yy.spark import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext /** * SQLContext的使用 * Spark 1.x使用 */ obj
转载 2023-08-23 19:58:15
52阅读
Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。hive可以创建带分区的内表, > create table sustPart (id int,name string) //创建表名为sust1 > parti
转载 2023-06-21 10:41:51
123阅读
目录建表准备建表生成数据导入数据到hive需求1.查询课程编号为“01”的课程比“02”的课程成绩高的所有学生的学号(重点):2、查询"01"课程比"02"课程成绩低的学生的信息及课程分数(重点):3、查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩(重点):4、查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩:5、查询所有同学的学生编号、学生姓名、选课总数、所有课程的总
转载 2023-07-18 12:33:34
358阅读
介绍: Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需 要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用S
转载 2023-06-19 18:35:21
184阅读
最近在建设数据仓库,处理数据的过程中,经常反复使用hive的HQL语句,尽管HQL和SQL语言有很多相同之处,但也并不是说HQL就能通用SQL的语法。在使用过程中要尤为注意。事情经过是这样的,我在把业务系统数据同步到数仓(数据存储在Hive)中时,在数据汇总层(DWS),对数据进行汇总处理时,发现有数据丢失的问题,经过排查,发现是在使用 <> 引发的坑。Hive 中 != 或 <
简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点Spark可以部署在YARN上Spark原生支持对HDFS文件系统的访问使用Sc
转载 2023-08-21 19:56:21
197阅读
推荐:经典sql题及答案(二)经典sql题及答案(三)题目部分第1题 我们有如下的用户访问数据 userId visitDate visitCount u01 2017/1/21 5 u02 2017/1/23 6 u03 2017/1/22 8 u04 2017/1/20 3 u01 2017/1/23 6 u01 2017/2/21 8 U02 2017/1/23 6 U01
转载 2023-07-12 21:05:59
119阅读
一、LAG函数介绍LAG函数是一个常用的窗口函数,作用是取当前行之后的数据,即把该列数据向上错位。使用方法如下:LAG(col ,n ,Default)col是字段名称,指明要操作的列,必须指定该参数;n表示取当前行的后n行的col列数据,可以不指定默认为1;Default 表示前n行没有数据时的默认值,可以不指定默认为NULL.二、案例表及测试数据准备首先创建该案例的表结构、插入测试数
转载 2023-08-31 09:37:48
620阅读
集合统计函数1. 个数统计函数: count语法: count(*), count(expr), count(DISTINCT expr[, expr_.])返回值: int说明: count(*)统计检索出的行的个数,包括NULL值的行;count(expr)返回指定字段的非空值的个数;count(DISTINCTexpr[, expr_.])返回指定字段的不同的非空值的个数举例:hi
转载 2023-07-12 21:25:32
306阅读
  • 1
  • 2
  • 3
  • 4
  • 5