Hadoop（1）——Hadoop安装、配置、测试(单机运行)

前面博文我尝试安装了VMware虚拟机和Ubuntu测试系统。下面开始安装大数据基础工具Hadoop。主要包括：

安装SSH，安装jdk，安装Hadoop及单机部署测试，伪分布式部署测试，集群部署测试。

关于SSH安装调试及集群间免密登陆参考我的博文：

关于JDK安装参考我的博文：

一、安装Hadoop及单机部署测试

1.1 基本解压安装

Hadoop的单机运行很简单，只要最基本的安装包解压后配置jdk和必要的环境变量就可以直接运行。

安装包就自行百度吧，我将安装包放到/home/Hadoop路径下。

1.2 输入指令tar -zxvf hadoop-2.7.6.tar.gz 进行解压，解压后如下图所示

1.3 下面修改Hadoop的jdk依赖配置，在Hadoop根目录的下的etc/hadoop/hadoop-env.sh配置文件中。

还是老老实实在Ubuntu的可视化界面上用文本编辑器改吧。。。哈哈

注：这个文件可能是只读的，为了测试方便，可以使用root用户到Hadoop的根目录的上级目录下，使用shmod 777 hadoop(文件夹名称)命令让整个hadoop文件夹下的文件可被编辑。

1.4 修改环境变量，配置PATH信息。打开/etc/profile文件，新增HADOOP_HOME、HADOOP_CONF_DIR、PATH

由于jdk安装的时候配置了PATH，在后面补一下信息就好

输入指令 source /etc/profile 使配置立即生效。

1.5 单机运行试试效果

可以使用share/hadoop/mapreduce/路径下的测试jar包，使用hadoop命令运行试试看看

1.5.1 测试准备：输入输出文件及文件夹

在hadoop根目录下创建input文件夹，用来保存测试输入数据，测试程序将自动创建output文件夹。

mkdir input

cp etc/hadoop/*.xml input

留意上面指令，是在hadoop的根目录下运行的，会把Hadoop文件里相对路径为etc/hadoop/*.xml的所有文件都拷贝到input

1.5.2 执行测试程序

输入指令：hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar grep input output 'dfs[a-z.]+'

或指令：hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar grep input output3 '<name>[a-z.]+'

执行日志如图

其实上面还有好多日志，发现WARN io.ReadaheadPool: Failed readahead on ifile 字样，有博文说是快速读取文件时文件被关闭引起，也可能是其他bug，暂且不具体研究。

1.5.3 查看运行结果

目前看，只找到了一条dfsadmin 与输入的匹配条件相吻合。

name标签的内容还是蛮多的。