今天给大家介绍几道MapReduce相关的面试题,这些题目是我或者别人在面试过程中遇到的,看看你能回答出几道,明天将答案发放给大家。

题目1:现有100TB的用户查询词(从搜索引擎日志中提取出来的),如何用MapReduce计算出现次数最多的K个查询词?如何对你设计的算法进行优化?考虑的优化点有:如果一个查询词出现次数非常多,产生的负载倾斜问题会不会导致你的算法性能非常低下,等等。

题目2:现有100TB的网页文档(文档库),很容易统计出每个文档中每两个词(词对)出现频率,设计一个MapReduce算法统计出现在超过10个文档中的词对,比如以下文档

I am a good man

那么词对有I am,I a,I good, I man, a man, am good …..

设计出算法之后,尝试考虑从以下几点进行优化:

(1)在Map阶段,一个Map Task可能会输出大量的临时数据,这可能会带来什么性能问题?如何对其进行优化?

(2)假设现在有一个词频表,已经统计出了文档库中每个词出现的频率,怎么利用这个词频表优化你的mapreduce程序?

(3)如果词频表非常大,内存放不下,有哪些数据结构可以节省内存?

(4)如果尝试使用各种数据结构后,词频表仍无法保存到内存中,如何进行解决该问题?

题目3:目前有很多基于MapReduce的数据挖掘库、机器学习库和图算法库,尝试基于MapReduce实现最短路径算法。

题目4:Hadoop MapReduce提供了什么机制允许一个作业的各个任务间共享只读文件?尝试描述该机制的工作原理。

题目5:请描述MapReduce中shuffle阶段的工作流程?如何优化shuffle阶段?

题目6:一个MapReduce作业的Map Task数目是如何决定的?一般情况下,在Hadoop中,一个处理文本文件的作业的Map Task是如何计算的?

题目7:什么叫数据本地性?Hadoop采用了哪些机制提高任务的数据本地性?

题目8:描述Hadoop MapReduce的容错机制。

题目9:MapReduce中Partitioner的作用是什么,哪些情况下需要自定义Parititioner?

题目10:MapReduce中Combiner的作用是什么,它一般用于哪些场景?举出一个不能使用Combiner的例子。