1.通过Xshell或SecureCRT等软件远程登录到集群中
2.登录后可以利用一些指令对文件进行操作
本地文件系统相关操作
查看当前路径
pwd
进入某个文件夹,如进入user
cd user
查看当前路径有什么文件
ls
#or
dir
退回根目录
cd
创建文件夹(目录),如创建一个filename文件夹
mkdir filename
显示文件内容,如查看当前路径下的test.txt文件
cat test.txt
本地验证代码是否正确
echo "a a b b b c c c c" | python count_mapper.py | sort -k1,1 | python count_reducer.py
head text1.txt | python count_mapper.py | sort -k1,1 | python count_reducer.py > result.txt
Hadoop集群相关操作
将本地文件上传到hdfs中,如将本地data文件夹中的text*.txt文件上传到HDFS上的/user/filename中
hadoop fs -put data/text*.txt /user/filename
运行MapReduce程序
#展示一下过程
#hadoop jar jar文件名
#-D mapreduce.job.name=‘工程名’
#-file 代码的路径和名称
#-mapper
#-file
#-reducer
#-input 数据所在文件夹
#-output 输出的文件夹
hadoop jar hadoop.jar
-D mapreduce.job.name="511028_test"
-file code/mapper.py
-mapper code/mapper.py
-file code/reducer.py
-reducer code/reducer.py
-input /input*
-output /output
获取结果数据,合并起来,合并后的文件在本地的文件夹中,所以查看的话要回去找
hadoop fs -getmerge /yourpath filename.txt