hadoop面试题面试hadoop的常见问题

转载

云端筑梦者 2024-01-25 10:57:39

文章标签 hadoop面试题 hadoop 分布式面试题 hadoop 数据分块 文章分类 Hadoop 大数据

英文转自：http://blog.163.com/redhumor@126/blog/static/1955478420112642253529/

由于本人英文水平和对hadoop的理解有限，翻译的不到位的地方欢迎大牛们指正，不甚感激。

对于hadoop中的专业名词，我就以英文直接呈现，方便理解。

问题1 ：说出hadoop中最长见得输入格式

TextInputFormat

--key value对输入格式 KeyValueInputFormat

SequenceFileInputFormat

问题2：TextInputFormat和KeyValueInputFormat之间的区别

TextInputFormat：通过读入文件当中的每行文本，文本的偏移量作为mapper的key，文本内容作为mapper的value。

--KeyValueInputFormat：读入文本，把每行解析成key value对，每一行的标志字符作为mapper的key，余下的作为mapper的value。

问题3：hadoop中的输入块（InputSplit）

--当hadoop中运行一个任务时，会把输入文件分很多合适的小块，把每一个分块交给一个mapper处理，这就称为输入块。

问题4：在hadoop的框架中是怎样进行文件分块的

--hadoop框架中通过运行用户定义的输入格式类中的getInputSplit()方法继续拧分块的。

问题5：在map/reduece系统中考虑如下情况：

--会有5个分块，64K的文件一个块，65MB的文件2个，127MB的文件2个。

问题6：谈谈hadoop中的RecordReader的作用

RecordReader class从源中装载数据，将其转化成适合mapper读入的key/value对。RecordReader的实例在InputFormat中有定义。

问题7：当map阶段完成，hadoop框架接着完成Partitioning，Shuffle和Sort，解释一下这个阶段发生了什么。

--Partitioning

这个阶段是决定那个reducer实例接收哪个中间key/value对，每一个mapper必须决定所有输出的key/value对相应的reducer。重要的一点是，对于任何一个key，不管是哪个mapper产生的，它的目标块是一样的。

--Shuffle

完成了第一个map任务之后，节点可能仍然在运行更多的map任务，同时也有将mapper的中间输出交给reducer。这个把map的输出移交给已知的reducer就是Shuffling。

--Sort

每一个的reduce任务响应reduce很多key/value对，在移交给reducer之前，hadoop会对一个节点上的中间key集合会排序。

问题9：如果没有自定义的分割器，那么在移交给reducer之前，hadoop会怎么样处理数据分割？

--缺省的分割器会为key计算一个hash值，基于计算结果进行分割。

问题10：什么是Combiner？

combiner之后的输出，而不是mapp之后的输出。

问题11：举一个相应的应用场景的例子，说明哪些地方用到combiner，哪些地方没有用到combiner？

--用到combiner的场景：获取一个文件中不同单词列表的时候

--用不到combiner的场景：计算一系列数字的平均值的时候

问题12：什么是Job Tracker？

--Job Tracker是一种服务，能够运行map/reduce任务的一个簇。

问题13：Job Tracker的典型功能有哪些？

--从客户端接收作业

--告诉NameNode去决定数据的存放位置

--将Task Tracker节点可用的卡槽放置于数据的附近

--将作业提交给选定的Task Tracker节点，而且负责监听来自task tracker的心跳信号

问题14：什么是task tracker？

--它是簇中的一个节点，负责接收来自map、reduce和shuffle的任务

问题15：在hadoop中，job和task的关系？

--一个作业分割成一个或者多个任务

问题16：假设hadoop中一个作业催生出100个任务，而且其中一个任务失败了，hadoop将会怎么处理？

--在另外的其他task tracker中重新启动这个任务，只有当这个任务失败次数超过4次（这个次数默认为4次，可以设置），就杀死掉这个作业。

问题17：hadoop中任务分配给多个节点并行操作，很可能是有些慢的节点会拖慢程序的进度，请问hadoop怎么解决？

Speculative Execution 投机执行

问题18：Speculative Execution的运行机制

--job tracker允许不同的task trakcer处理相同的输入。当任务完成时，它会将这个事实通知给job tracekr。哪个最先完成就选哪个。如果其他的备份执行不合理，hadoop会告诉task trakcer放弃这个任务，忽视它们的输出。然后reducer接收最先成功完成的任务作为输入。

问题19：linux命令

--查看hadoop集群运行的所有作业 hadoop job -list

--杀死一个作业 hadoop job -kill jobid

问题20：hadoop的streaming？

streaming是一个通用API，它允许程序一以虚拟方式写可以被用来作为mapper和reducer实现的任一语言。

-------------未完待续！！！！！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。