利用HDFS在Hadoop集群上面运行计算

1.通过Xshell或SecureCRT等软件远程登录到集群中

Xshell6软件

2.登录后可以利用一些指令对文件进行操作

本地文件系统相关操作

  1. 查看当前路径
pwd
  1. 进入某个文件夹,如进入user
cd user
  1. 查看当前路径有什么文件
ls
#or
dir
  1. 退回根目录
cd
  1. 创建文件夹(目录),如创建一个filename文件夹
mkdir filename
  1. 显示文件内容,如查看当前路径下的test.txt文件
cat test.txt
  1. 本地验证代码是否正确
echo "a a b b b c c c c" | python count_mapper.py | sort -k1,1 | python count_reducer.py
head text1.txt | python count_mapper.py | sort -k1,1 | python count_reducer.py > result.txt

Hadoop集群相关操作

  1. 将本地文件上传到hdfs中,如将本地data文件夹中的text*.txt文件上传到HDFS上的/user/filename中
hadoop fs -put data/text*.txt /user/filename
  1. 运行MapReduce程序
#展示一下过程
#hadoop jar jar文件名
#-D mapreduce.job.name=‘工程名’
#-file 代码的路径和名称
#-mapper
#-file
#-reducer
#-input 数据所在文件夹
#-output 输出的文件夹
hadoop jar hadoop.jar  
-D mapreduce.job.name="511028_test" 
-file code/mapper.py  
-mapper code/mapper.py  
-file code/reducer.py 
-reducer code/reducer.py 
-input /input*  
-output /output
  1. 获取结果数据,合并起来,合并后的文件在本地的文件夹中,所以查看的话要回去找
hadoop fs -getmerge /yourpath filename.txt
发布了4 篇原创文章 · 获赞 2 · 访问量 115

猜你喜欢

转载自blog.csdn.net/weixin_44132302/article/details/90646922