一、手动HA
1、如果是创建全新的HA集群,请先完成这篇博客的前18步。
2、修改core-site.xml
<property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/sweeney/soft/tmp</value> </property> <property> <name>dfs.journalnode.edits.dir</name> <value>/home/sweeney/soft/tmp/journalnode</value> </property>
3、修改hdfs-site.xml
<property> <!-- 此新名称服务的逻辑名称 --> <name>dfs.nameservices</name> <value>mycluster</value> </property> <property> <!--配置逗号分隔的NameNode ID列表--> <name>dfs.ha.namenodes.mycluster</name> <value>nn1,nn2</value> </property> <property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>master:9000</value> </property> <property> <name>dfs.namenode.rpc-address.mycluster.nn2</name> <value>slave1:9000</value> </property> <property> <name>dfs.namenode.http-address.mycluster.nn1</name> <value>master:50070</value> </property> <property> <name>dfs.namenode.http-address.mycluster.nn2</name> <value>slave1:50070</value> </property> <property> <!--这是一个配置JournalNodes地址的地方,它提供共享编辑存储--> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://master:8485;slave1:8485;slave2:8485/mycluster</value> </property> <property> <!--配置Java类的名称,DFS客户端将使用该名称来确定哪个NameNode是当前的Active,以及哪个NameNode当前正在为客户端请求提供服务。--> <name>dfs.client.failover.proxy.provider.mycluster</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property> <property> <!--SSH到Active NameNode并终止进程--> <name>dfs.ha.fencing.methods</name> <value>sshfence</value> </property> <property> <!--该选项是以逗号分隔的SSH私钥文件列表--> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/home/sweeney/.ssh/id_rsa</value> </property>
4、(新集群请跳到下面第6步)如果你已经格式化了NameNode,或者正在将启用了HA的集群转换为启用HA,则应该通过运行命令“ hdfs namenode bootstrapStandby ”将NameNode元数据目录的内容复制到另一个未格式化的NameNode上。
hadoop-daemon.sh start namenode hdfs namenode bootstrapStandby(执行此命令前,请确保namenode是在运行状态)
5、如果要将非HA NameNode转换为HA,则应运行命令“ hdfs namenode -initializeSharedEdits ”,该命令将使用来自本地NameNode编辑目录的编辑数据初始化JournalNodes。
hadoop-daemon.sh stop namenode hdfs namenode -initializeSharedEdits(执行此命令前,请确保nomenode停止运行)
6、如果是新集群,请忽略4、5步,回到此篇博客的第21步,后面步骤基本一致。只有第25步,在格式化之前,先在每个节点上启动journalnode。
hadoop-daemon.sh start journalnode
7、无论是新集群还是从非HA转HA,执行完上述步骤,手动HA就搭建完成了。然后我们需要测试。
把其中一个namenode切换成活跃的(先在web中查看两个namenode的状态) hdfs haadmin -transitionToActive nn1 测试上传文件是否成功
二、自动HA 。
1、先在所有节点上安装ZooKeeper,参照博客。
2、在zookeeper的conf目录下,修改zoo.cfg(没有此文件,请将zoo_sample.cfg拷贝一份)配置文件。
tickTime=2000 dataDir=/home/sweeney/soft/tmp/zookeeper clientPort=2181 initLimit=5 syncLimit=2 server.1=master:2888:3888 server.2=slave1:2888:3888 server.3=slave2:2888:3888
3、将zoo.cfg文件发送到其他节点。
scp ~/soft/zoo/conf/zoo.cfg sweeney@slave1:~/soft/zoo/conf/
4、每台机器运行一次zkServer.sh start,如果无法启动,请在每台节点配置的dataDir目录下,执行下面命令。
echo "1" >> myid (注意1是配置文件中给的id server.1=master:2888:3888)
5、再次在每台机器上运行zkServer.sh start,然后验证zkCli.sh命令是否成功。
zkCli.sh
6、在上述手动HA中在core-site.xml追加
<property> <name>ha.zookeeper.quorum</name> <value>master:2181,slave1:2181,slave2:2181</value> </property>
在hdfs-site.xml中追加
<property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property>
7、在每台机器上启动zookeeper
zkServer.sh start
8、在每台机器上启动journalnode
hadoop-daemon.sh start journalnode
9、在其中一台namenode上格式化
hdfs namenode -format
10、格式化后会生成tmp文件夹,发送给另外一个namenode
scp -r ~/soft/tmp sweeney@slave1:~/soft/tmp
11、在格式化完的那台namenode上格式化zkfc
hdfs zkfc -formatZK
12、在未格式化的namenode上同步数据
hdfs namenode -bootstrapStandby
13、启动集群
start-dfs.sh
如果在配置之前就已经启动了集群,则使用以下命令单独开启zkfc守护进程
hadoop-daemon.sh start zkfc
14、测试,使用下面命令杀死状态为active的namenode进程,然后在web界面查看另一个namenode状态是否变为active。
kill -9 namenode的进程id