1.通过Xshell或SecureCRT等软件远程登录到集群中

Xshell6软件

2.登录后可以利用一些指令对文件进行操作

本地文件系统相关操作

查看当前路径

pwd

进入某个文件夹，如进入user

cd user

查看当前路径有什么文件

ls
#or
dir

cd

创建文件夹（目录），如创建一个filename文件夹

mkdir filename

显示文件内容，如查看当前路径下的test.txt文件

cat test.txt

本地验证代码是否正确

echo "a a b b b c c c c" | python count_mapper.py | sort -k1,1 | python count_reducer.py
head text1.txt | python count_mapper.py | sort -k1,1 | python count_reducer.py > result.txt

Hadoop集群相关操作

将本地文件上传到hdfs中，如将本地data文件夹中的text*.txt文件上传到HDFS上的/user/filename中

hadoop fs -put data/text*.txt /user/filename

运行MapReduce程序

#展示一下过程
#hadoop jar jar文件名
#-D mapreduce.job.name=‘工程名’
#-file 代码的路径和名称
#-mapper
#-file
#-reducer
#-input 数据所在文件夹
#-output 输出的文件夹
hadoop jar hadoop.jar  
-D mapreduce.job.name="511028_test" 
-file code/mapper.py  
-mapper code/mapper.py  
-file code/reducer.py 
-reducer code/reducer.py 
-input /input*  
-output /output

获取结果数据，合并起来，合并后的文件在本地的文件夹中，所以查看的话要回去找

hadoop fs -getmerge /yourpath filename.txt

红鸡

发布了4 篇原创文章 · 获赞 2 · 访问量 115

私信关注

利用HDFS在Hadoop集群上面运行计算

利用HDFS在Hadoop集群上面运行计算

1.通过Xshell或SecureCRT等软件远程登录到集群中

2.登录后可以利用一些指令对文件进行操作

本地文件系统相关操作

Hadoop集群相关操作

猜你喜欢