hadoop官网http://hadoop.apache.org/,可以下载最新的hadoop版本,这里安装最新的hadoop-2.4.0.tar.gz。
采用集群方式安装hadoop,只有一台master服务器,有多个slave服务器,这里暂时定义一台slave服务器。master服务器的域名为master,slave服务器的域名为slave1。
- 准备条件
1.jdk安装
2.ssh安装
master需要通过ssh无密码访问slave。
执行下面3条指令,最后一条指令是将authorized_keys文件复制到域名为slave1的服务器上
ssh-keygen -t dsa -P '' -f /root/.ssh/id_dsa cat /root/.ssh/id_dsa.pub >> /root/.ssh/authorized_keys scp authorized_keys slave1:/root/.ssh/
- hadoop配置
上传hadoop-2.4.0.tar.gz到master服务器的/home目录,并解压。
修改/home/hadoop-2.4.0/etc/hadoop/hadoop-env.sh文件和yarn-env.sh文件
在里面设置java环境变量
修改/home/hadoop-2.4.0/etc/hadoop/core-site.xml文件
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration>
修改/home/hadoop-2.4.0/etc/hadoop/hdfs-site.xml文件
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/hadoop-2.4.0/hadoopfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/hadoop-2.4.0/hadoopfs/data</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.http-address</name> <value>master:50070</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
修改/home/hadoop-2.4.0/etc/hadoop/mapred-site.xml文件
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
修改/home/hadoop-2.4.0/etc/hadoop/yarn-site.xml文件
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:8030</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:8088</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:8031</value> </property> </configuration>
修改/home/hadoop-2.4.0/etc/hadoop/slaves文件,里面增加slave服务器的ip或域名。
最后将master服务器上/home/hadoop-2.4.0/目录复制到所有slave服务器上。
- hadoop启动
进入/home/hadoop-2.4.0/bin目录,hadoop namenode –format格式化,只用执行一次。
进入/home/hadoop-2.4.0/sbin目录,start-all.sh,启动hadoop。