导航

  • ​​hadoop 面试​​
  • ​​MapTask并行度决定机制​​
  • ​​ReduceTask并行度决定机制​​
  • ​​FileInputFormat切片源码解析​​

hadoop 面试

​​链接​​

MapTask并行度决定机制

  1. 一个job的map阶段的并行度由切片数目决定的
  2. 一个切片分配一个maptask
  3. 切片大小=BlockSize
  4. 切片时不考虑数据集整体,而是逐个对每一个文件单独切片

ReduceTask并行度决定机制

ReduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,​​ReduceTask数量简单来说是由分区数决定的​​(需要根据真实场景进行测试)

​注意:​

mr-MapTask ReduceTask并行度决定机制 FileInputFormat切片源码解析_mr

FileInputFormat切片源码解析

mr-MapTask ReduceTask并行度决定机制 FileInputFormat切片源码解析_并行度_02


mr-MapTask ReduceTask并行度决定机制 FileInputFormat切片源码解析_hadoop_03

​切片机制总结:​

  1. 获取文件大小
  2. 根据公式计算切片大小,
  3. minSize = 1,maxSize=long的最大值,blockSize=128m,计算得出切片大小=Block大小
  4. 文件块大小/切片大小,在和1.1倍进行比较,得出具体要切几片
  5. 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片