一:分区Partitioner
在MapReduce中,通过指定分区,mapTask会将同一个分区的数据发送到同一个reduce当中进行处理。也就是把相同类型的数据,发送到同一个reductTask去处理。
注意:分区需要在yarn集群上运行,不能本地测试。
二:代码实现
自定义分区类,注意分区实现阶段在map阶段,也就是分区时的key为k2,v2阶段
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
/**
* 自定义分区
* 接收的参数是k2,v2
* 多个分区,对应输出的结果文件也是多个
*/
public class Partition extends Partitioner<Text,NullWritable> {
/**
*
* @param text:k2
* @param nullWritable:v2
* @param i
* @return:返回分区数
*/
@Override
public int getPartition(Text text, NullWritable nullWritable, int i) {
String s = text.toString();
String[] split = s.split("\t");
if(Integer.valueOf(split[5]) > 15){
return 1;//到1号reduceTask
}
return 0;//到0号reduceTask
}
}
三:设置分区类和reduceTask数量
//第三步:自定义分区
job.setPartitionerClass(Partition.class);
//设置分区数,也就是设置有几个reduce,结果会产生几个结果文件,
//如果设置数量过大例如:2块砖,设置了3个人ReduceTask处理,则其中有一个处理为空的内容,则返回的结果文件有一个没有值
//如果设置数量过小例如:2块砖,设置了1个人ReduceTask处理,则会重复处理
job.setNumReduceTasks(2);
扫描二维码关注公众号,回复: 4272672 查看本文章
驱动程序: