说明  【注意】    看清楚上面说的实训是不是和你需要做的实训是同一个实训!!!    如果是同一个实训,直接复制粘贴代码,然后点击测评即可。  【发文时间】2021-05-26 16:03  【更新时间】2022-04-12  【更新内容】    【新增】Hive综合应用案例——学生成绩查询——第1关:计算每个班的语文总成绩和数学总成绩    【新增】Hive综合应用案例——学生成绩查询——第
转载 2023-07-20 19:51:24
955阅读
1点赞
综合案例接下来我们来看一个综合案例,主要使用外部分区表和视图实现需求:Flume按天把日志数据采集到HDFS中的对应目录中,使用SQL按天统计每天数据的相关指标 分析一下: Flume按天把日志数据保存到HDFS中的对应目录中 针对Flume的source可以使用execsource、channel可以使用基于文件的或者内存的,sink使用hdfssink,在hdfssink的path路径中需要使
转载 2023-07-14 13:11:36
101阅读
1、正确建表,导入数据(三张表,三份数据),并验证是否正确 (1)分析需求 需要创建一个数据库movie,在movie数据库中创建3张表,t_user,t_movie,t_rating t_user:userid bigint,sex string,age int,occupation string,zipcode string t_movie:movieid bigint,moviename s
转载 2023-07-20 19:58:44
424阅读
1评论
1:order by, sort by, distribute by, cluster by1.1 order byhive 中的 order by 语句会对查询结果做一次全局排序,即,所有的 mapper 产生的结果都会交给一个 reducer 去处理,无论数据量大小, job 任务只会启动一个 reducer,如果数据量巨大,则会耗费大量的时间。 提示: 如果在严格模式下, order by
hive来进行日志分析有一段时间了,这里简要记录下我使用UDF和存储与导出hsql结果的实现方式,以供参考。(一)UDF 开发与使用案例 1、创建Maven工程,开发UDF(基于hadoop2.2.0+hive-0.12.0)。 1. <dependencies> 2. <dependency> 3. <groupId>org.apache.ha
转载 8月前
32阅读
Hive是什么 1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;4)允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作;5)Hive没有专门的数据格式(分隔
内容目录Hive实战小项目1、数据准备2、业务分析①统计视频观看数Top10②统计视频类别热度Top10③统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数④统计视频观看数Top50所关联视频的所属类别排序⑤统计类别视频观看数Top10⑥统计每个类别视频观看数Top10⑦统计上传视频最多的用户Top10以及他们上传的视频观看次数在前20的视频 Hive实战小项目需求分析:统
 1、特点(1)功能强大 高扩展性,弹性,容错 (2)轻量级 无需专门的集群 。一个库,而不是框架(3)完全集成 100%的Kafka 0.10.0版本兼容。易于集成到现有的应用程序 (4)实时性毫秒级延迟 、并非微批处理 、窗口允许乱序数据 、允许迟到数据2、为什么要有Kafka Stream当前已经有非常多的流式处理系统,最知名且应用
x
原创 2022-11-14 05:22:45
564阅读
Hive是大数据离线计算的关键组件,常用于数仓建设。本节ShowMeAI来详细讲解Hive的搭建和配置及使用方法。
原创 2022-03-12 12:25:14
7880阅读
1点赞
目录一、Hive 执行过程概述1、概述2、Hive 操作符列表3、Hive 编译器的工作职责4、优化器类型二、join1、对于 join 操作2、实现过程3、具体实现过程三、Group By1、对于 group by操作2、实现过程四、Distinct1、对于 distinct的操作2、实现过程3、详细过程解释 正文回到顶部一、Hive 执行过程概述1、概述(1) Hive 将 HQL
转载 2023-09-15 21:37:26
84阅读
数据倾斜:操作• Join on a.id=b.id• Group by• Count Distinct count(groupby)• 原因• key分布不均导致的• 人为的建表疏忽• 业务数据特点• 症状• 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。• 查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可
转载 2023-07-13 15:58:51
48阅读
hive综合案例实战1、需求描述2、项目表字段2,1 数据结构3、ETL原始数据清洗4、项目建表并加载数据4.1 创建表4.2 导入ETL之后的数据(ODS层 textfile)4.3 向ORC表插入数据(DW层 ORC + snappy)5、业务分析5.1 统计视频观看数Top105.2 统计视频类别热度Top105.3 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个
转载 2023-10-04 19:59:57
97阅读
1.hive模糊搜索表   show tables like '*name*'; 2.查看表结构信息   desc formatted table_name;   desc table_name; 3.查看分区信息   show partitions table_name; 4.根据分区查询数据   select table_cou
转载 2023-07-18 11:39:10
211阅读
Hadoop hive sqoop zookeeper hbase生产环境日志统计应用案例
原创 2015-11-04 19:26:06
1544阅读
一、背景与目标1.1、背景1.、行业内竞争 民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司、民营航空公司,甚至国外航空巨头。航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价格、服务间的竞争逐渐转向对客户的竞争。2.、行业外竞争 随着高铁、动车等铁路运输的兴建,航空公司受到巨大冲击。客户营销战略倡导者Jay & Adam Curry从国外数百家公司进行了
前言hive是构建在Hadoop上的数据仓库平台,其设计目标是:使Hadoop上的数据操作与传统的SQL结合,让熟悉sql的开发人员能够轻松的像Hadoop平台迁移。Hive是Facebook的信息平台的重要组成部分,Facebook在2008年将其共献给Apache,现在Hive是Hadoop家族中一款数据仓库产品。Hive最大的特点是:提供了类SQL的语法,封装了底层的MapReduce过程,
摘要:Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多行,返回一行, aggregate(主要用于聚合功能,比如groupBy,count,
原创 2021-05-28 00:25:38
1288阅读
1.TS3335D系列精密激光调阻设备,结合AOI检测系统,可对各种合金箔数字电阻进行精密检测、修复和调阻,精度高,速度快。2.TS4210D型多功能激光调阻机用于液位传感器的自动化生产。3.TS4210D型多功能激光调阻机用于压力传感器的自动化生产。4.TS4410F系列激光调阻机,用于线位移传感器的激光修刻。5.TS4410F系列激光调阻机,用于角位移传感器的激光修刻。
原创 11月前
114阅读
第一部分 Hive概述第 1 节 Hive产生背景直接使用MapReduce处理大数据,将面临以下问题:MapReduce 开发难度大,学习成本高(wordCount => Hello World)Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理使用MapReduce框架开发,项目周期长,成本高Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表 (
转载 5月前
29阅读
  • 1
  • 2
  • 3
  • 4
  • 5