说明  【注意】    看清楚上面说的实训是不是和你需要做的实训是同一个实训!!!    如果是同一个实训,直接复制粘贴代码,然后点击测评即可。  【发文时间】2021-05-26 16:03  【更新时间】2022-04-12  【更新内容】    【新增】Hive综合应用案例——学生成绩查询——第1关:计算每个班的语文总成绩和数学总成绩    【新增】Hive综合应用案例——学生成绩查询——第            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-20 19:51:24
                            
                                1037阅读
                            
                                                        
                                点赞
                            
                                                                             
                 
                
                             
         
            
            
            
            关系运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE hive> select 1 from iteblog where 1=1;1 2、不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2018-05-03 18:46:02
                            
                                120阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            关系运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE hive> select 1 from iteblog where 1=1;1 2、不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-04-23 09:15:56
                            
                                99阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            综合案例接下来我们来看一个综合案例,主要使用外部分区表和视图实现需求:Flume按天把日志数据采集到HDFS中的对应目录中,使用SQL按天统计每天数据的相关指标 分析一下: Flume按天把日志数据保存到HDFS中的对应目录中 针对Flume的source可以使用execsource、channel可以使用基于文件的或者内存的,sink使用hdfssink,在hdfssink的path路径中需要使            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 13:11:36
                            
                                148阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            数据倾斜:操作• Join on a.id=b.id• Group by• Count Distinct count(groupby)• 原因• key分布不均导致的• 人为的建表疏忽• 业务数据特点• 症状• 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。• 查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-13 15:58:51
                            
                                64阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录一、Hive 执行过程概述1、概述2、Hive 操作符列表3、Hive 编译器的工作职责4、优化器类型二、join1、对于 join 操作2、实现过程3、具体实现过程三、Group By1、对于 group by操作2、实现过程四、Distinct1、对于 distinct的操作2、实现过程3、详细过程解释 正文回到顶部一、Hive 执行过程概述1、概述(1) Hive 将 HQL            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-15 21:37:26
                            
                                124阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            用hive来进行日志分析有一段时间了,这里简要记录下我使用UDF和存储与导出hsql结果的实现方式,以供参考。(一)UDF 开发与使用案例 1、创建Maven工程,开发UDF(基于hadoop2.2.0+hive-0.12.0)。   1. <dependencies>
2. <dependency>
3. <groupId>org.apache.ha            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-20 16:40:57
                            
                                86阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1:order by, sort by, distribute by, cluster by1.1 order byhive 中的 order by 语句会对查询结果做一次全局排序,即,所有的 mapper 产生的结果都会交给一个 reducer 去处理,无论数据量大小, job 任务只会启动一个 reducer,如果数据量巨大,则会耗费大量的时间。 提示: 如果在严格模式下, order by             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-20 06:21:14
                            
                                112阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            hive综合案例实战1、需求描述2、项目表字段2,1 数据结构3、ETL原始数据清洗4、项目建表并加载数据4.1 创建表4.2 导入ETL之后的数据(ODS层 textfile)4.3 向ORC表插入数据(DW层 ORC + snappy)5、业务分析5.1 统计视频观看数Top105.2 统计视频类别热度Top105.3 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-04 19:59:57
                            
                                123阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            内容目录Hive实战小项目1、数据准备2、业务分析①统计视频观看数Top10②统计视频类别热度Top10③统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数④统计视频观看数Top50所关联视频的所属类别排序⑤统计类别视频观看数Top10⑥统计每个类别视频观看数Top10⑦统计上传视频最多的用户Top10以及他们上传的视频观看次数在前20的视频 Hive实战小项目需求分析:统            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-01 21:08:22
                            
                                0阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、Mapreduce的理解?Mapreduce 的执行原理?Mapper 阶段1、先将HDFS中的输入文件file按照一定的标准进行切片2、调用自己编写的map逻辑,将输入的键值对<k1,v1>变成<k2,v2>3、按照一定的规则对输出的键值对<k2,v2>进行分区4、对每个分区中的键值对进行排序。Reduce 阶段1、对多个Mapper任务的输出,按照不同的            
                
         
            
            
            
            ???欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-04-17 09:56:20
                            
                                53阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、解析URL字符串的: parse_url 用法: select parse_url("",[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]) 举例 : select parse_url('http://facebook.com/path ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-20 17:59:00
                            
                                891阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            b
内容较多,见《Hive官方文档》
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-04-13 11:38:47
                            
                                124阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Hive 常用函数 关系运算 // 等值比较 = == <=> // 不等值比较 != <> // 区间比较: select * from default.students where id between 1500100001 and 1500100010; // 空值/非空值判断:is null ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-31 17:08:00
                            
                                78阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            字符串函数字符串长度函数:length Java代码  语法: length(string A)  返回值: int             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-08-20 00:00:14
                            
                                55阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            hive>quit; show databases; use analysis; show tables; desc tab_name; --查看表的结构及表的路径 s            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-06-01 06:37:13
                            
                                216阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            hive建表语句: CREATE TABLE `hive_ttt_999`( `id` bigint COMMENT 'ID,主键', `name` string COMMENT '姓名', `address` string COMMENT '地址', `mobile` string COMMENT ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-31 14:50:00
                            
                                172阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            分析查询数据筹备7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,\N,20
7499,ALLEN,SALESMAN,7698,1981-02-20 00:00:00,1600,300,30
7521,WARD,SALESMAN,7698,1981-02-22 00:00:00,1250,500,30
7566,JONES,MANAGER,7839,198            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-22 17:32:10
                            
                                37阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            05年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hi            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-06-01 15:33:46
                            
                                89阅读