1.将hadoop解压
2.修改配置文件
首先了解一下hadoop包中的目录文件都是干嘛的:
hadoop-env.sh:
再配置下一个文件之前,先想清楚逻辑:
namenode需要存储元数据的目录,这样namenode就可以知道文件存储到哪了。
datanode需要存储从元数据中拆分出来的文件块的目录,可是datanode怎么才能知道namenode的位置呢?所以就需要统一资源定位符URI
core-site.xml(配置这个文件的目的是告知namenode的位置在哪台主机,端口号默认为9000):
hdfs-site.xml(配置这个文件的目的是声明数据目录)
3.配置文件修改完毕之后,将hadoop文件传送到各个主机:
4.启动namenode之前需要注意,刚才在hdfs-site.xml中声明的数据目录不需要创建,格式化之后会自动创建,而且由于namenode中的元数据有自己的格式,所以需要进行格式化
格式化之后我们可以看见自动生成了之前声明的数据目录,并且目录生成了一些数据:
启动namenode成功:
linux查看进程监听的端口:
9000端口用来跟客户端和datanode进行通信
50070用来提供外部访问
启动datanode,之前声明的数据目录不需要创建,启动datanode的时候,会自动创建
启动datanode之前一定要确保本机的hosts文件映射到了namenode节点所在的ip地址,这样d
atanode节点才能通过主机名访问namenode