大数据离线（二）

Apache Hadoop

Hadoop介绍

狭义上来说，Hadoop 就特指 Apache 这款开源框架，它的核心组件有：

HDFS（分布式文件系统）：解决海量数据存储
YARN（作业调度和集群资源管理的框架）：解决资源任务调度
MAPREDUCE（分布式运算编程框架）：解决海量数据计算

广义上来说，HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈。

HDFS：分布式文件系统
MAPREDUCE：分布式运算程序开发框架
HIVE：基于 HADOOP 的分布式数据仓库，提供基于 SQL 的查询数据操作
HBASE：基于 HADOOP 的分布式海量数据库
ZOOKEEPER：分布式协调服务基础组件
Mahout：基于 mapreduce/spark/flink 等分布式运算框架的机器学习算法库
Oozie：工作流调度框架
Sqoop：数据导入导出工具（比如用于 mysql 和 HDFS 之间）
Flume：日志数据采集框架
Impala：基于 HADOOP 的实时分析

Hadoop特性优点

扩容能力（Scalable）
成本低（Economical）
高效率（Efficient）
通过并发数据，Hadoop 可以在节点之间动态并行的移动数据，使得速度非常快。
可靠性（Rellable）
能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。

Hadoop集群搭建

集群简介

HADOOP 集群具体来说包含两个集群：HDFS 集群和 YARN 集群，两者逻辑上分离，但物理上常在一起。

HDFS 集群负责海量数据的存储，集群中的角色主要有：NameNode、DataNode、SecondaryNameNode
YARN 集群负责海量数据运算时的资源调度，集群中的角色主要有：ResourceManager、NodeManager

Hadoop 部署方式分三种，Standalone mode （独立模式）、Pseudo-Distributed mode（伪分布式模式）、Cluster mode（集群模式），以3 节点为例进行集群搭建，角色分配如下：

node1 NameNode DataNode ResourceManager
node2 DataNode NodeManager SecondaryNameNode
node3 DataNode NodeManager

服务器系统设置

同步时间

#网络同步时间
ntpdate ntp6.aliyun.com

设置主机名

vim /etc/sysconfig/network

配置IP 、主机名

vim /etc/hosts

配置ssh免密登入

#生成 ssh 免登陆密钥
ssh-keygen -t rsa （四个回车）
执行完这个命令后，会生成 id_rsa（私钥）、id_rsa.pub（公钥）
将公钥拷贝到要免密登陆的目标机器上
ssh-copy-id node2

配置防火墙

#查看防火墙状态
service iptables status
#关闭防火墙
service iptables stop
#查看防火墙开机启动状态
chkconfig iptables --list
#关闭防火墙开机启动
chkconfig iptables off

JDK环境安装

#上传 jdk 安装包
jdk-8u65-linux-x64.tar.gz
#解压安装包
tar zxvf jdk-8u65-linux-x64.tar.gz -C /root/apps
#配置环境变量 /etc/profile
export JAVA_HOME=/root/apps/jdk1.8.0_65
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
#刷新配置
source /etc/profile

hadoop集群搭建

#上传hadoop的安装包到服务器
hadoop-2.7.4-with-centos-6.7.tar.gz
#解压安装包
tar zxvf hadoop-2.7.4-with-centos-6.7.tar.gz -C /export/server/

#配置hadoop-env.sh
vim hadoop-env.sh
export JAVA_HOME=/root/apps/jdk1.8.0_65

#配置core-site.xml configuration标签
<!-- 指定HADOOP所使用的文件系统schema（URI），HDFS的老大（NameNode）的地址 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:9000</value>
</property>

<!-- 指定hadoop运行时产生文件的存储目录,默认/tmp/hadoop-${user.name} -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/export/data/hadoopdata</value>
</property>

#配置hdfs-site.xml configuration标签
<!-- 指定HDFS副本的数量 -->
<property>
    <name>dfs.replication</name>
    <value>2</value>
</property>
    
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node2:50090</value>
</property>

#配置mapred-site.xml configuration标签
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<!-- 指定mr运行时框架，这里指定在yarn上，默认是local -->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

#配置yarn-site.xml configuration标签
<!-- 指定YARN的老大（ResourceManager）的地址 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node-21</value>
</property>
    
<!-- NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序默认值："" -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

#配置slaves文件，里面写上从节点所在的主机名字
vim slaves
node1
node2
node3

#将hadoop添加到环境变量
vim /etc/proflie
export HADOOP_HOME=/export/server/hadoop-2.7.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

#格式化namenode（本质是对namenode进行初始化）
hdfs namenode -format (hadoop namenode -format)
        
#启动hadoop
先启动HDFS    sbin/start-dfs.sh
再启动YARN    sbin/start-yarn.sh
        
#验证是否启动成功
使用jps命令验证
27408 NameNode
28218 Jps
27643 SecondaryNameNode
28066 NodeManager
27803 ResourceManager
27512 DataNode
    
http://192.168.81.130:50070 （HDFS管理界面）
http://192.168.81.130:8088 （MR管理界面）