导航
- hadoop 面试
- MapTask并行度决定机制
- ReduceTask并行度决定机制
- FileInputFormat切片源码解析
hadoop 面试
链接
MapTask并行度决定机制
- 一个job的map阶段的并行度由切片数目决定的
- 一个切片分配一个maptask
- 切片大小=BlockSize
- 切片时不考虑数据集整体,而是逐个对每一个文件单独切片
ReduceTask并行度决定机制
ReduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,ReduceTask数量简单来说是由分区数决定的
(需要根据真实场景进行测试)
注意:
FileInputFormat切片源码解析
切片机制总结:
- 获取文件大小
- 根据公式计算切片大小,
- minSize = 1,maxSize=long的最大值,blockSize=128m,计算得出切片大小=Block大小
- 文件块大小/切片大小,在和1.1倍进行比较,得出具体要切几片
- 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片