Hadoop MapReduce框架原理

发布时间 2023-12-14 11:49:57作者: SpringCore

1.InputFormat数据输入

1.数据切片与MapTask并行度决定机制

  1. 一个Job的Map阶段并行度由客户端在提交Job时的切片数决定
  2. 每一个Split切片分配一个MapTask并行实例处理
  3. 默认情况下,切片大小 = BlockSize
  4. 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片。