本文主要讲解如何搭建Hadoop集群。
第一步,去apache官网下载Hadoop包,版本号为:2.6.5
http://hadoop.apache.org/releases.html
第二步:修改配置文件
1、修改hadoop-env.sh
export JAVA_HOME=***
2、core-site.xml
vim core-site.xml
<configuration> <!--用来指定HDFS的NameNode的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://bigdata1:9000</value> </property> <!--用来指定Hadoop运行时产生文件的存放目录--> <property> <name>hadoop.tmp.dir</name> <value>/**/tmp</value> </property> </configuration>
3、hdfs-site.xml
vim hdfs-site.xml
<configuration> <!--指定HDFS保存数据副本的数量--> <property> <name>dfs.replication</name> <value>3</value> </property> </configuration>
4、mapred-site.xml
vim mapred-site.xml
<configuration> <!--告诉Hadoop以后MR运行在YARN上--> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5、yarn-site.xml
vim yarn-site.xml
<configuration> <!--NodeManager获取数据的方式是shuffle--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--指定YARN的ResourceManager的地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata1</value> </property> </configuration>
6、将hadoop添加到环境变量
vim /etc/profile
export HADOOP_HOME=**
export PATH=$PATH:***
source /etc/profile
7、初始化HDFS(格式化文件系统)
#hadoop namenode -format(过时)
hdfs namenode -format
8、启动HDFS和YARN
./start-all.sh(过时了)
start-dfs.sh和start-yarn.sh
9、浏览器查看
yarn:http://**.**.**.**:8088
10、测试HDFS
上传文件到HDFS
hadoop fs -put 目标文件 hdfs://***
从HDFS下载文件到本地
hadoop fs -get hdfs://**** 目的文件
11、测试MR和YARN
第二部分 配置ssh免密码登录
1、cd ~
cd .ssh
2、生成密钥(公钥和私钥)
ssh-keygen -t rsa
会在.ssh下生成两个文件:.id_rsa id_rsa.pub
3、将公钥(id_rsa.pub)拷贝到authorized_keys中
将公钥拷贝到要免密登录的机器上
# cp id_rsa.pub authorized_keys
方式二、cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
方式三、ssh-copy-id 主机名