Ubuntu16.04下Hadoop的本地安装与配置

一、系统环境

os : Ubuntu 16.04 LTS 64bit
jdk : 1.8.0_161
hadoop : 2.6.4
部署时使用的用户名为hadoop，下文中需要使用用户名的地方请更改为自己的用户名。

准备工具：
VMware Workstation:创建虚拟机
FileZilla :FTP工具
SecureCRT ：SSH远程连接虚拟机

硬件准备：
1.根据hadoop部署方式不同，需要的服务器个数不同。
部署方式为：单机模式，伪分布模式，完全集群模式
Hadoop100–>单机模式
Hadoop101–>伪分布模式
完全集群模式至少需要三台服务器，如下：
Hadoop102
Hadoop103
Hadoop104

三种运行模式的区别为：
单机(非分布式)模式：
这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统，一般仅用于本地MR程序的调试
伪分布式运行模式：
这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点
完全分布式模式：
真正的分布式，由3个及以上的实体机或者虚拟机组件的机群

二、安装步骤

1.修改root密码

sudo passwd root

2.安装并配置ssh

2.1 安装ssh【重要】

输入命令： $ sudo apt-get install openssh-server ，安装完成后使用命令 $ ssh localhost 登录本机。首次登录会有提示，输入yes，接着输入当前用户登录电脑的密码即可。

2.2 配置SSH root登录【非必须】

默认情况下，ssh不支持root 用户，需要修改配置。
vi /etc/ssh/sshd_config
把其中的“PermitRootLogin prohibit-password” 修改为“PermitRootLogin yes”

重启服务器：reboot

2.3 配置静态IP【非必须】

1.先停止Network-manager的服务
sudo service network-manager stop
2.修改/etc/network/interfaces配置文件
sudo vi /etc/network/interfaces
在文件中加入下面内容：

auto ens33
iface ens33 inet static
address 192.168.1.20 
netmask 255.255.255.0 
gateway 192.168.1.1
dns-nameservers 192.168.1.1

注：在配置之前，先查询当前IP和DNS
查询DNS:nmcli dev show | grep ‘DNS’

3.重启网络服务器：
sudo /etc/init.d/networking restart
sudo service network-manager restart

2.4 永久修改主机名【重要】

在Ubuntu系统中永久修改主机名也比较简单。主机名存放在/etc/hostname文件中，修改主机名时，编辑hostname文件，在文件中输入新的主机名并保存该文件即可。

2.5 修改Hosts文件【重要】

修改/etc/hosts文件种的IP和hostname

重启网络服务：sudo /etc/init.d/networking restart

2.6 关闭防火墙【重要】

1、关闭防火墙
#sudo ufw disable

关闭了防火墙，并取消了开机自启动。
2、查看防火墙状态：
#sudo ufw status

3、开启防火墙：
#sudo ufw enable

2.7 VI编辑器换行和退格键问题【非必须】

sudo vi /etc/vim/vimrc.tiny
vim:set ft=vim:前面的 set compatible 修改为 set nocompatible 解决方向键问题
再在下面加上 set backspace=2 修改退格键问题

2.8 配置ssh无密码登录（完全集群模式）【重要】

需要配置下面两个ssh无密码登录：
1.Hadoop102->hadoop103,hadoop4,hadoop102的ssh无密码登录。配置Root用户和haddop用户。Hadoop102上部署了NameNode，需要管理hadoop102,hadoop103,hadoop104上面的DataNode。
2.Hadoop103->hadoop102,hadoop103,hadoop104的ssh无密码登录。配置Root用户和haddop用户。Hadoop103上部署了Yarn的resourceManager,需要管理hadoop102,hadoop103,hadoop104上面的nodeManager。
（1）Root用户
1.生成私钥和公钥
ssh-keygen -t rsa

2.拷贝公钥到hadoop103,hadoop104,hadoop102
ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104
拷贝后，103，104，102 的.ssh/下面会生成下面文件

3.测试ssh无密码登录
在hadoop102上ssh到hadoop103,不需要输入密码，直接登录。

（2）Hadoop用户
切换到hadoop用户，执行操作同root用户

3.安装并配置java

3.1 安装java

去官方网站下载jdk-8u161-linux-x64.tar.gz ，使用如下命令解压并安装到/usr/local/目录下：

$ cd ~/下载 
$ sudo tar -xzf jdk-8u161-linux-x64.tar.gz -C /usr/local 
$ cd /usr/local
$ sudo mv jdk1.8.0_161/ java

3.2 配置环境变量

使用命令 $ vim ~/.bashrc 编辑文件~/.bashrc，在该文件开头添加以下内容：

export JAVA_HOME=/usr/local/java
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin

最后使用命令 $ source ~/.bashrc 让环境变量生效。使用java -version检查是否配置正确，正确配置如下图：

4.hadoop的安装与配置

4.1 hadoop下载与安装

安装
去hadoop官网下载hadoop-2.6.4.tar.gz ，使用以下命令安装到/usr/local/目录下：
hadoop官网:https://archive.apache.org/dist/hadoop/common/
在这里插入图片描述
hadoop目录结构

$ sudo tar -xzf hadoop-2.6.4.tar.gz -C /usr/local
$ cd /usr/local
$ sudo mv hadoop-2.6.4/ hadoop
$ sudo chown -R hadoop ./hadoop  #前一个hadoop为用户名，更改为自己的用户名即可

hadoop配置环境变量
将以下代码添加到~/.bashrc中：

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

测试环境变量配置
然后使用命令 source ~/.bashrc 让环境变量生效，使用命令 hadoop version 检查环境变量是否添加成功，成功如下：

5. hadoop单机配置

安装后的hadoop默认为单机配置，无需其他配置即可运行。

1.启停服务

2.测试服务

使用hadoop自带的单词统计的例子体验以下：

$ cd /usr/local/hadoop
$ mkdir ./input
$ cp ./etc/hadoop/*.xml ./input   # 将配置文件作为输入文件
$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
$ cat ./output/*          # 查看运行结果

结果为：
1 dfsadmin

6. hadoop伪分布式配置（HDFS启动MR）

hadoop的配置文件存放在/usr/local/hadoop/etc/hadoop下，要修改该目录下的文件core-site.xml和hdfs-site.xml来达到实现伪分布式配置。

6.1配置core-site.xml

修改core-site.xml，将修改为：

<!--配置Hadoop运行时产生的存储目录-->
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/data/tmp</value>
</property>
<!--配置Hadoop NameNode节点-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
</property>
</configuration>

6.2配置hdfs-site.xml

修改hdfs-site.xml，将修改为：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/data/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/data/tmp/dfs/data</value>
</property>
</configuration>

6.3格式化NameNode

配置完成后在/usr/local/hadoop下使用命令 $ ./bin/hdfs namenode -format 实现namenode的格式化，成功后会有“successfully formatted”及“Exiting with status 0”的提示，如下图：

6.4启动HDFS

接着使用sbin/start-dfs.sh来开启namenode和datanode，开启后使用命令jps查看是否开启成功，如下图：

namenode和datanode都要出现才算成功。

6.5查看日志

6.6 Web查看HDFS文件系统

访问地址：http://hadoop102:50070

7.配置yarn(Yarn启动MR)

7.1配置yarn-env.xml

配置JAVA_HOME，将JAVA_HOME地址修改为实际 jdk地址

7.2配置mapred-env.xml

配置JAVA_HOME，将JAVA_HOME地址修改为实际 jdk地址

7.3配置yarn-site.xml

修改etc/hadoop/yarn-site.xml

<configuration>    
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
</configuration>

7.4配置mapred-site.xml

在/usr/local/hadoop下操作
$ cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
然后修改etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
</configuration>

7.5启动YARN

$ ./sbin/start-yarn.sh
$ ./sbin/mr-jobhistory-daemon.sh start historyserver #查看历史任务

关闭资源管理器
$ ./sbin/stop-yarn.sh
$ ./sbin/mr-jobhistory-daemon.sh stop historyserver

7.6 web访问集群资源管理

启动成功后可以在http://hadoop102:8088/cluster访问集群资源管理器。

8.配置历史服务器（可选）

历史服务器用于记录MapReduce的Job执行的信息。

8.1配置mapred-site.xml

<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop101:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop101:19888</value>
</property>

8.2启动历史服务器

mr-jobhistory-daemon.sh start historyserver

9.配置日志聚集服务器（可选）

9.1配置yarn-site.xml

<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置 7 天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

9.2启动集群

启动resourcemanager

yarn-daemon.sh start resourcemanager

启动nodemanager

yarn-daemon.sh start nodemanager

启动历史服务器

mr-jobhistory-daemon.sh start historyserver

10.完全集群配置

10.1配置集群

10.1.1集群规划

组件	hadoop102	hadoop103	hadoop104
HDFS	NameNode,DataNode	DataNode	Secondary NameNode,DataNode
Yarn	NodeManager	ResourceManager,NodeManager	NodeManager

10.1.2配置文件

10.1.2.1在hadoop102节点上修改配置信息
core-site.xml

<!--配置Hadoop运行时产生的存储目录-->
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/module/hadoop/data/tmp</value>
</property>
<!--配置Hadoop NameNode节点-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:9000</value>
</property>
</configuration>

HDFS
1.Hadoop-env.sh–>修改JAVA_HOME配置
2.Hdfs-site.xml

<configuration>
<property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:50090</value>
</property>
<property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/data/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/data/tmp/dfs/data</value>
</property>
</configuration>

3.Slaves

hadoop102
hadoop103
hadoop104

注：不要有空格
Yarn
1.Yarn-env.sh–>修改JAVA_HOME配置
2.Yarn-site.sh

<configuration>
<!--reducer获取数据的方式--> 
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
<!--指定yarn的ResourceManager的地址-->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
</property>
</configuration>

Mapreduce
1.Mapred-env.sh–>修改JAVA_HOME配置
2.Mapred-site.sh

<configuration>
<!--指定mr运行在yarn上-->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
</configuration>

10.1.2.2将hadoop102配置分发到其他服务器（hadoop103,hadoop104）
在hadoop102上执行下面命令：

rsync -rvl /usr/local/hadoop/etc/hadoop/* hadoop@hadoop103:/usr/local/hadoop/etc/hadoop
rsync -rvl /usr/local/hadoop/etc/hadoop/* hadoop@hadoop104:/usr/local/hadoop/etc/hadoop

10.2集群启动

10.2.1格式化NameNode
配置完成后在/usr/local/hadoop下使用命令 $ ./bin/hdfs namenode -format 实现namenode的格式化，成功后会有“successfully formatted”及“Exiting with status 0”的提示

10.2.2启动集群
先启Hdfs，再启Yarn。
1.启动Hdfs
在namenode上启动集群。
执行命令：sbin/start-dfs.sh

2.启动Yarn
在resourceManage上启动yarn
执行命令：sbin/start-yarn.sh

10.2.3 停集群
先停Yarn,再停Hdfs.
停Yarn:sbin/stop-yarn.sh
停Hdfs:sbin/stop-dfs.sh

三、指导文档

Hadoop 官方网站

https://hadoop.apache.org/

Hadoop 2.6.4 API 文档

https://hadoop.apache.org/docs/r2.6.4/

qq_239821429

原创文章 6 获赞 16 访问量 509

关注私信

Ubuntu16.04下Hadoop的本地安装与配置