1、统计影音视频网站的常规指标,各种 TopN 指标统计视频观看数 Top10统计视频类别热度 Top10统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数统计视频观看数 Top50 所关联视频的所属类别排序统计每个类别中的视频热度 Top10,以 Music 为例统计每个类别视频观看数 Top10统计上传视频最多的用户 Top10 以及他们上传的视频观看次数在前
转载 2023-09-12 11:13:32
194阅读
1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆) 1)倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周
Map端的主要工作:为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。
一、Hive面试题1、hive内部表和外部表的区别未被external修饰的是内部表,被external修饰的为外部表。区别:内部表数据Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse), 外部表数据的存储位置由自己制定(如果没有LOCATION,Hive将在HDFS上 的/
目录1. Hive 中内部表和外部表的区别以及使用场景内部表:2. Hive 有哪些保存元数据的方式3. Hive 中分区表和分桶表的区别和使用场景4. Hive 查询的时候 on 和 where 的区别5. Hive 中 inner join、left join 和 right join 的区别6. Hive 的执行计划7. Hive 和 MySQL 的区别,为什么大数据选用 Hive8. Hi
转载 2023-08-14 19:04:07
96阅读
### Hive是什么结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。### 为什么使用Hive1.) 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短M
1、Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件
热身系列40题1.大表join小表产生的问题,怎么解决?2.udf udaf udtf区别3.hive有哪些保存元数据的方式,个有什么特点。4.hive内部表和外部表的区别6.insert into 和 override write区别?7.hive的判断函数有哪些8.简单描述一下HIVE的功能?用hive创建表几种方式?hive表有几种?9.线上业务每天产生的业务日志(压缩后>=3G),每天需要加载到hive的log表中,将每天产生的业务日志在压缩之后load到hiv
原创 2021-06-10 21:30:03
327阅读
热身系列40题1.大表join小表产生的问题,怎么解决?2.udf udaf udtf区别3.hive有哪些保存元数据的方式,个有什么特点。4.hive内部表和外部表的区别6.insert into 和 override write区别?7.hive的判断函数有哪些8.简单描述一下HIVE的功能?用hive创建表几种方式?hive表有几种?9.线上业务每天产生的业务日志(压缩后>=3G),每天需要加载到hive的log表中,将每天产生的业务日志在压缩之后load到hiv
原创 2021-06-10 21:30:04
304阅读
目录1.hive内部表和外部表的区别2.Hive有索引吗3.运维如何对hive进行调度4.ORC、Parquet等列式存储的优点5.为什么要对数据仓库分层6.sort by 和 order by 的区别 其他两种排序?7.数据倾斜8.Hive 小文件过多怎么解决9.Hive的两张表关联,使用MapReduce怎么实现?10.请谈一下Hive的特点,Hive和RDBMS有什么异同? 11.
文章目录前言一、考察SQL能力*初级*1. 表A只有一个字段ID,值为[1,2,2,3,3,3]。现要求查询出重复的id2.表A又两个字段ID和Create_Time,计算今天新增的ID表[不包含昨天的那一部分];3. 表A和表B都只有一个字段Account,如果account来自A则输出red,来自B则输出blue;4. 计算字符串'ABCABC' 中字符A的个数*高级*5. 表A有两个字段I
大数据SQL面试题本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。#一、行列转换描述:表中记录了各年份各部门的平均绩效考核成绩。 表名:t1 表结构:a
转载 2023-08-11 21:46:21
141阅读
1、​​Kafka​​ 都有哪些特点?高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。可扩展性:kafka集群支持热扩展持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失容错性:允许集群中节点失败(若副本数量为n,则允许n
原创 精选 2022-09-11 18:11:43
1014阅读
Linux部分 ①列举你使用的常用指令? ②怎么查看服务是否开启?后面的参数都是什么意思? ③怎么查看服务器内存使用情况? ④日志查看指令? ⑤跨机房怎么传输文件? Hadoop部分 ①怎么搭建一个Hadoop集群? ②Hadoop的Shuffer机制? ③切片概念?文件256M时,几个切片? ④M
原创 2021-07-20 09:29:34
302阅读
转载自: https://tieba.baidu.com/p/5524551174?red_tag=2452717583(花时间思考一下吧!)公司A:1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?3.讲一下Mapreduce或者hdfs的原理和机
转载 2023-05-11 12:39:27
80阅读
大数据面试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...
原创 2021-07-08 14:34:11
323阅读
1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文
转载 2023-07-11 09:31:12
376阅读
大数据面试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...
原创 2022-01-28 14:23:01
289阅读
  版本 时间 描述 V1.0 2020-12-18 创建 V1.2 2021-01-17 新增 spark 面试题 V1.3 2021-01-18 新增  kafka  面试题 V1.4 2021-01-20 新增 hbase 面试题 V1.5 2021-01-30 新增  flink  面试题     目录   Hadoo
原创 2021-07-28 06:42:57
623阅读
进入到eclipse界面第一步:file->new->java project->起名->finish第二步:进入到刚才建的工程里,右键src->new->package->起名->finish第三步:进入到刚才建的package里,右键name->new->class->起名(这里起名要注意,因为比赛时如果交java代码,这里的
转载 2023-12-29 14:15:01
76阅读
  • 1
  • 2
  • 3
  • 4
  • 5