Hadoop之Join时 DataJoin软件包问题

在做HDFS多文件Join时通过监控job成功启动并且mapper执行完毕,但reduce总是不能执行完成,进度卡在66.66%。mapper输出是想要的格式,而且小规模输入数据测试时整个job能成功完成。在查看未完成reduce的状态,发现key不变,“numOfValues”的值却一直在增大

如下格式错误:

key...:1294823 > reduce;

key...:2346134> reduce;

..........

可是reducer中没什么会导致死循环的地方

于是就觉得应该是碰到了死循环。网上查询了下说是DataJoinReducerBase里面的以下源代码引起的:

这块代码迭代arg1参数(集合类型的),但这个arg1的大小不能超过this.maxNumOfValuesPerGroup,否则就死循环。因为continue之前并没有从迭代器中取数据的操作,取数据的部分偏偏又执行不到。

其实解决起来也简单,因为

只要我们在初始化job时,设置datajoin.maxNumOfValuesPerGroup为一个很大的值就好了。具体大小是大于一个group key所对应value的最大个数。不确定到底有多大,干脆设置为Long.MAX_VALUE。

上面说的是Reduce死循环出现的原理;

下面是解决方法:

给Job设置mapred.textoutputformat.separator值;

即:

import  org.apache.hadoop.mapred.JobConf;

Configuration conf = getConf();
JobConf job = new JobConf(conf, DataJoin.class);

job.setLong("datajoin.maxNumOfValuesPerGroup", Long.MAX_VALUE);

通过以上设置,再次测试,顺利通过!

猜你喜欢

转载自blog.csdn.net/yuyecsdn/article/details/91359949