(笔者自己做记录)1.Hive内外部表的区别删除表是否影响外部数据2.Hive如何做到权限管理hive下可以修改配置后创建用户管理,但是仅仅是为了防止误操而已,如果要真的为了安全操作建议使用
Kerberos3.Hive的数据倾斜和调优key分布不均匀造成 去null 调节参数hive.map.aggr=truemap端聚合,相当于combinerhive.groupby.skewindata=t            
                
         
            
            
            
            最近在深入了解Hive,尚硅谷的这5道题很经典,有引导意义,分步解题也很有用,故记录之,方便回看1.连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量 找出连续 3 天及以上减少碳排放量在 100 以上的用户id dt lowcarbon 1001 2021-12-12 123 1002 2021-12-12 45 1001 2021-12-13 43 1001 2021-12-13 45 100            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-16 18:29:27
                            
                                467阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            
 
第一题
需求
我们有如下的用户访问数据
    userId  visitDate   visitCount
    u01 2017/1/21   5
    u02 2017/1/23   6
    u03 2017/1/22   8
    u04 2017/1/20   3
    u01 2017/1/23   6
    u01 2017/2/21   8
    U02            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-06-12 10:48:22
                            
                                614阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、求单月访问次数和总访问次数1、数据说明数据字段说明用户名,月份,访问次数数据格式A,2015-01,5
A,2015-01,15
B,2015-01,5
A,2015-01,8
B,2015-01,25
A,2015-01,5
A,2015-02,4
A,2015-02,6
B,2015-02,10
B,2015-02,5
A,2015-03,16
A,2015-03,22
B,2015-03            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-28 20:01:54
                            
                                67阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录一、窗口函数概述:1.窗口函数的分类2.窗口函数与普通聚合函数的区别:二、窗口函数的基本用法1.基本语法2.设置窗口的方法1)window_name2)partition by 子句3) order by子句4)rows 指定窗口大小3.开窗函数中加order by 和 不加 order by的区别三、窗口函数用法举例1.序号函数:row_number() / rank() / dense_r            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 04:37:12
                            
                                3618阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Student(S#,Sname,Sage,Ssex) 学生表
Course(C#,Cname,T#) 课程表
SC(S#,C#,score) 成绩表
Teacher(T#,Tname) 教师表
问题:
1、查询“001”课程比“002”课程成绩高的所有学生的学号;
select a.S# from (select s#,score from SC where C#='001') a,(selec            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-15 19:42:07
                            
                                115阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            SQL Server经典面试题集锦,快来一起看看吧~            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-03-22 10:11:49
                            
                                443阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hadoophadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程:Client客户端发送上传请求,通过RPC与NameNode建立通信,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-08 12:45:13
                            
                                94阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hive面试题—理清hive应用思路问题:有一张很大的表:TRLOG该表大概有2T左右。TRLOG:
CREATE TABLE TRLOG
(PLATFORM string,
USER_ID int,
CLICK_TIME string,
CLICK_URL string)
row format delimited fields terminated by '\t'; 数据:PLATFORM            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-05 05:35:38
                            
                                142阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # Hive SQL 面试题及其解析
在大数据时代,Hive 被广泛使用于数据仓库的构建与管理。作为一种基于 Hadoop 的数据处理工具,Hive 允许用户使用 SQL-like 的查询语言(称为 HiveQL)来进行数据分析。因此,Hive SQL 面试题在大数据相关的职位中变得愈加重要。本文将梳理一些常见的 Hive SQL 面试题,并附有代码示例及解析,帮助读者更好地理解其用法和应用场景            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-10-21 05:34:45
                            
                                41阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            已经知道原表year salary------------------ ---------------------2000 10002001 20002002 30002003 4000显            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-09-01 11:27:22
                            
                                272阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            经典Sql面试题收集!!floger 发布于 2年前,共有 0 条评论1.用一条SQL语句 查询出每门课都大于80分的学生姓名 name   kecheng             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-20 10:00:34
                            
                                63阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            这是一道经典SQL题建表语句 --产品表create table Production(   P# int not null,   Pname varchar2(32),   Pdate date);alter table Production add constraint pk_p# primary key (P#);insert into Production value...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-01-12 13:42:34
                            
                                138阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            总结下Hive的面试点Hive可考察的内容有:基本概念、架构、数据类型、数据组织、DDL操作、函数、数据倾斜、SQL优化、数据仓库。面试数据分析工程师更多会考察DDL操作、函数、数据倾斜、Hive优化、数据仓库这些知识点。来看看具体问题吧。1、基本概念       基本概念一般会以问答题的方式进行考察,比如在面试的时候直接问:说说你对Hive的理解?Hive            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-20 21:17:25
                            
                                111阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.Hive数据倾斜问题倾斜原因: 1)key分布不均匀 2)业务数据本身的特性 3)SQL语句造成数据倾斜解决方案:1)参数调节:①开启 Map 端聚合参数设置 hive.map.aggr=true 当选项设定为true,生成的查询计划会有两个MR Job.相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;②开启MapJoin参数设置 Set hi            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-29 14:18:22
                            
                                109阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            一、提要 作为一名数据工作人员,SQL是日常工作中最常用的数据提取&简单预处理语言。因为其使用的广泛性和易学程度也被其他岗位比如产品经理、研发广泛学习使用,本篇文章主要结合经典面试题,给出通过数据开发面试的SQL方法与实战。以下题目均来与笔者经历&网上分享的中高难度SQL题。二、解题思路 简单——会考察一些group by & limit之类的用法,或者平时用的不多的函数比            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-09 13:34:46
                            
                                57阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hive sql编程面试题第1题表结构:uid,subject_id,score求:找出所有科目成绩都大于某一学科平均成绩的学生数据集如下1001	01	90
1001	02	90
1001	03	90
1002	01	85
1002	02	85
1002	03	70
1003	01	70
1003	02	70
1003	03	851)建表语句create table score(
  uid            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-14 10:42:21
                            
                                235阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            作业题1、找出全部夺得3连贯的队伍team,year
活塞,1990
公牛,1991
公牛,1992
公牛,1993
火箭,1994
火箭,1995
公牛,1996
公牛,1997
公牛,1998
马刺,1999
湖人,2000
湖人,2001
湖人,2002
马刺,2003
活塞,2004
马刺,2005
热火,2006
马刺,2007
凯尔特人,2008
湖人,2009
湖人,2010
cr            
                
         
            
            
            
            1. 用一条SQL 语句 查询出每门课都大于80 分的学生姓名name kecheng fenshu张三 语文 81张三 数学 75 张三 英语 78 李四 语文 76 李四 数学 90王五 语文 81王五 数学 100王五 英语 90 每门课大于80分就是语数英的分数都过80分, 如果不考虑学生的            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-08-29 14:01:18
                            
                                433阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            现在我们假设只有一个table,名为pages,有四个字段,id, url,title,body。里面储存了很多网页,网页的url地址,title和网页的内容,然后你用一个sql查询将url匹配的排在最前, title匹配的其次,body匹配最后,没有任何字段匹配的,不返回。
就是上面这道面试题,让我想了一个下午,在网上找资料,最后用下面方法实现
SELECT *
FROM page w            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2011-09-18 00:54:28
                            
                                2050阅读