MapReduce的分区

一：分区Partitioner

在MapReduce中，通过指定分区，mapTask会将同一个分区的数据发送到同一个reduce当中进行处理。也就是把相同类型的数据，发送到同一个reductTask去处理。

注意：分区需要在yarn集群上运行，不能本地测试。

二：代码实现

自定义分区类，注意分区实现阶段在map阶段，也就是分区时的key为k2,v2阶段


import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * 自定义分区
 * 接收的参数是k2,v2
 * 多个分区，对应输出的结果文件也是多个
 */
public class Partition extends Partitioner<Text,NullWritable> {
    /**
     *
     * @param text:k2
     * @param nullWritable:v2
     * @param i
     * @return:返回分区数
     */
    @Override
    public int getPartition(Text text, NullWritable nullWritable, int i) {
        String s = text.toString();
        String[] split = s.split("\t");
        if(Integer.valueOf(split[5]) > 15){
            return 1;//到1号reduceTask
        }
        return 0;//到0号reduceTask
    }
}

三：设置分区类和reduceTask数量

//第三步：自定义分区

job.setPartitionerClass(Partition.class);

//设置分区数，也就是设置有几个reduce，结果会产生几个结果文件，

//如果设置数量过大例如：2块砖，设置了3个人ReduceTask处理，则其中有一个处理为空的内容，则返回的结果文件有一个没有值

//如果设置数量过小例如：2块砖，设置了1个人ReduceTask处理，则会重复处理

job.setNumReduceTasks(2);

扫描二维码关注公众号，回复： 4272672 查看本文章

驱动程序：

一：分区Partitioner

二：代码实现

三：设置分区类和reduceTask数量

猜你喜欢