Hadoop之Join时 DataJoin软件包问题 - 代码天地

Hadoop之Join时 DataJoin软件包问题

其他 2019-06-11 08:41:47 阅读次数: 0

在做HDFS多文件Join时通过监控job成功启动并且mapper执行完毕，但reduce总是不能执行完成，进度卡在66.66%。mapper输出是想要的格式，而且小规模输入数据测试时整个job能成功完成。在查看未完成reduce的状态，发现key不变，“numOfValues”的值却一直在增大

如下格式错误：

key...:1294823 > reduce;

key...:2346134> reduce;

..........

可是reducer中没什么会导致死循环的地方

于是就觉得应该是碰到了死循环。网上查询了下说是DataJoinReducerBase里面的以下源代码引起的：

这块代码迭代arg1参数（集合类型的），但这个arg1的大小不能超过this.maxNumOfValuesPerGroup，否则就死循环。因为continue之前并没有从迭代器中取数据的操作，取数据的部分偏偏又执行不到。

其实解决起来也简单，因为

只要我们在初始化job时，设置datajoin.maxNumOfValuesPerGroup为一个很大的值就好了。具体大小是大于一个group key所对应value的最大个数。不确定到底有多大，干脆设置为Long.MAX_VALUE。

上面说的是Reduce死循环出现的原理；

下面是解决方法：

给Job设置mapred.textoutputformat.separator值；

即：

import org.apache.hadoop.mapred.JobConf;

Configuration conf = getConf();
JobConf job = new JobConf(conf, DataJoin.class);

job.setLong("datajoin.maxNumOfValuesPerGroup", Long.MAX_VALUE);

通过以上设置，再次测试，顺利通过！

猜你喜欢

转载自blog.csdn.net/yuyecsdn/article/details/91359949

Hadoop之Join时 DataJoin软件包问题

Android 解析软件包时出现问题

[转帖]升级 Ubuntu，解决登录时提示有软件包可以更新的问题

解决Ubuntu登录时提示有软件包可更新的问题

解决安装软件包时出现E:无法定位的问题

Linux之软件包安装管理

RTT学习之软件包

解决 :dpkg: 处理软件包 linux-image-4.15.0-33-generic (--configure)时出错的问题

android studio开发真机运行时（解析错误解析软件包时出现问题）

dpkg: 处理软件包 xxxxxxxx (–configure)时出错：

提取软件包“Essentials.pkg”的文件时出错

dpkg: 处理软件包 XXX (--configure)时出错：

[Linux]CentOS安装软件包时error: Failed dependencies

RPM包管理之查询软件包

openwrt之添加OpenWrt软件包概述

Linux系统软件包之---Apache

探索Linux之软件包组成和安装路径

Python学习之路——Linux基础之软件包

linux之软件包的管理（rpm文件）

安装录视频软件包之ubuntu16.04

RT-Thread之mqttclient软件包

Linux基础知识之软件包安装

GO语言篇之发布开源软件包

当在Ubuntu系统下使用apt-get命令来安装所需依赖包时，可能会报错“E: 无法定位软件包问题”

Ubuntu 22.04.1 LTS 严重安装某些软件包时导致其他软件包被卸载

解决双系统(Window10+Ubuntu16.10)下ubuntu安装git时提示软件包git没有可安装候选问题

解决CentOS7在线安装Mysql数据库时没有可用软件包 mysql-community-server。的问题

软件包管理之 Fedora/Redhat 在线安装更新软件包，yum 篇 ── 给新手指南

Ubuntu_备份更新包与软件包重装时不必再重新下载

在使用rpm命令安装包时，什么时候使用软件包全名，什么时候使用软件包名？

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)