hadoop 和 hive面试题及答案 hadoop常见面试题

关注 boyboy

hadoop 和 hive面试题及答案 hadoop常见面试题

转载

boyboy 2024-07-26 12:48:09

文章标签 hadoop 和 hive面试题及答案 hadoop mapreduce 数组快速查询 文章分类 Hadoop 大数据

目录

1. 一个超级大文件，每行一个url，求每一个url出现的次数

1.1 如果是小文件
1.2 如果是超级大文件

2. 两个超级大文件，每行一个url，求两个文件中相同的url

2.1 如果是两个小文件
2.2 如果是两个超级大文件

3. 一个超级大文件，每行一个url，快速查询出给定的url是否在这个大文件中

3.1 如果是小文件
3.2如果是超级大文件

1. 一个超级大文件，每行一个url，求每一个url出现的次数

1.1 如果是小文件

创建一个读取文件的流
创建一个存放url的容器Map
key:url
value:出现的次数
读取url到Map集合中
判断map中是否存在该url:
不存在
map.put(url,1)
存在
map.put(url,map.get(url)+1)
最后这个map中就是每一个url对应出现的次数

1.2 如果是超级大文件

考虑容器map、array、list、set ，这些都是在JVM的内存的，然后就OOM了
那怎么办呢，分布式的思想，分而治之

将超级大文件切分为多个小文件
对每个小文件分别计算url出现的次数
汇总所有小文件的结果

其实就是体现了hdfs+mapreduce思想

2. 两个超级大文件，每行一个url，求两个文件中相同的url

2.1 如果是两个小文件

创建两个读文件的流
创建两个放URL的容器Set
遍历某个set,判断是否在别一set中（set.contains()）

2.2 如果是两个超级大文件

分而治之+分区

将两个大文件分别切分成小文件
两个大文件切分需要满足一定的规则
url.hashCode%分区数量
分区数量可以相同或成位数关系
将两个大文件分成的小文件进行关联对比分析

hadoop 和 hive面试题及答案 hadoop常见面试题_mapreduce

这就体现了mapreduce+hive的思想

3. 一个超级大文件，每行一个url，快速查询出给定的url是否在这个大文件中

这个题目的重点是快速查询

3.1 如果是小文件

创建一个读文件的流
创建一个放url的容器set
判断set中是否存在set.contains

3.2如果是超级大文件

考虑容器：

数组：数组索引基于下标查询快
list
arraylist 查询快
linkedlist 增删快

所以我们将url存储在数组的下边中,将url取hash当作下标(url.hashCode)，然后该下标的数组值为1是存在，0为不存在。

bit[]

但是数组的缺点：1）长度不好确定2）散列造成空间的浪费

hadoop 和 hive面试题及答案 hadoop常见面试题_数组_02

快速查询体现了hbase的思想

关于误判率
布隆过滤器主要用于判断一个元素是否存在于某个集合。得益于其简单的原理和极高的空间效率，被广泛用于海量数据处理，比如Web爬虫、垃圾邮件过滤、拼写检测等。
布隆过滤器误判指某个元素并不存在于集合中，却判定为存在于集合中。意即某元素经过k个哈希运算所得的索引都为1。本质是哈希碰撞。
假设：
数组长度为m
哈希函数个数为k
共有数据条数为n
则误判率= $hadoop 和 hive面试题及答案 hadoop常见面试题_hadoop 和 hive面试题及答案_03$
n已确定，通过公式找到一个合适的m和k，使误判率足够低，满足预期。

布隆过滤器参考：https://www.douban.com/note/342448148/https://blog.csdn.net/u012400327/article/details/62222922

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：SQLAlchemy 与写原生SQL哪个好 orm好还是原生sql好

下一篇：架构评审报告架构评估

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册