Hadoop - 简介
Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点
特别适合写一次,读多次的场景
适合
- 大规模数据
- 流式数据(写一次,读多次)
- 商用硬件(一般硬件)
不适合
- 低延时的数据访问
- 大量的小文件
- 频繁修改文件(基本就是写1次)
Hadoop架构
- HDFS: 分布式文件存储
- YARN: 分布式资源管理
- MapReduce: 分布式计算
- Others: 利用YARN的资源管理功能实现其他的数据处理方式
Hadoop框架包括以下四个模块:
Hadoop Common: 这些是其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象,并包含启动Hadoop所需的Java文件和脚本。
Hadoop YARN: 这是一个用于作业调度和集群资源管理的框架。
Hadoop Distributed File System (HDFS™): 分布式文件系统,提供对应用程序数据的高吞吐量访问。
Hadoop MapReduce:这是基于YARN的用于并行处理大数据集的系统。
Hadoop-安装配置
Hadoop由GNU / Linux平台及其版本支持。因此,我们必须安装一个Linux操作系统来设置Hadoop环境。
在Linux进行网络资源配置后,要用SSH实现远程登录和免密登陆
查看虚拟机是否安装ssh服务:(如下图所示即为安装好)
查看虚拟机是否启动ssh服务:(已经开启服务如图所示)
虚拟机的远程连接工具CRT:(文件->快速连接)
连接hadoop01:
如下图即为连接到hadoop01:
修改一些相关数据:(options->session options)
(Appearance ->font)
以上述同样的操作完成连接hadoop02 hadoop03(中间会弹出一个框 选择OK)
主机与主机之间发送消息的机制:
SSH免密登录原理:
一 SSH免密登陆
一 hadoop01 产生密钥对:(三个回车键)
以同样的方法产生hadoop02 03的密钥对
查看hadoop01的 公钥私钥:
二 将三台虚拟机上的公钥拷贝到同一台机器上:
将hadoop01公钥拷贝:
将hadoop02公钥拷贝:
将hadoop03公钥拷贝:
三 复制第一台机器的认证到替他机器上:
将第一台机器的公钥文件拷贝到其他机器上
将hadoop01中的公钥文件拷贝到hadoop02上:
将hadoop01中的公钥文件拷贝到hadoop03上:
验证免密登陆成功:
hadoop01 免密登陆02 03:
hadoop02 免密登陆01 03:
hadoop03 免密登陆01 02:
Hadoop集群部署模式
二 jdk安装
1.下载并安装jdk
将jdk传输进来:
打开srt:
解压到对应的文件夹下
重命名
2.配置jdk环境
在文章末尾加上三句话:
使上述三句话修改成效
3.验证jdk环境
三 hadoop 安装
1.下载并安装hadoop
将jdk传输进来:
解压到对应的文件夹下并进行查看
2.配置hadoop环境
在文章末尾加上两句话:
使上述修改成效
3.验证hadoop环境
四 hadoop集群配置
1.配置hadoop集群主节点
修改 hadoop-env.sh 文件
(用系统中java的位置替换JAVA_HOME值来重置hadoop-env.sh文件中的java环境变量。)
修改core-site.xml文件
(core-site.xml文件包含诸如用于Hadoop实例的端口号,为文件系统分配的内存,用于存储数据的内存限制以及读/写缓冲区大小的信息。)
修改hdfs-site.xml文件
修改mapred-site.xml文件
修改yarn-site.xml文件
修改slaves文件 删除默认的localhost 修改如下:
2.将集群主节点的配置文件分发给其他子节点
(以同样的方式分发给hadoop03)
最后要在hadoop02 03上面执行:source /etc/profile
五 Hadoop集群测试
一 格式化文件系统
出现如图所示即可:
二 开启和关闭hadoop集群
- 单个节点逐个开启或关闭
先启动HDFS的主节点,再启动从节点:
以同样的方式启动hadoop02 03的从节点(略)
先启动yarn的主节点,再启动从节点:
以同样的方式启动hadoop02 03的从节点(略)
启动hadoop02的从节点:
关闭hdfs主从节点:
关闭yarn的主从节点:
关闭hadoop02 03从节点:
- 脚本一键开启或关闭
hadoop01启动hdfs脚本:
查看对应的hadoop02 03 可见启动成功
hadoop01启动yarn脚本:
查看对应的hadoop02 03 可见启动成功
hadoop01关闭hdfs脚本:
查看对应的hadoop02 03 可见启动成功
hadoop01关闭yarn脚本:
查看对应的hadoop02 03 可见启动成功
- 一键开启或关闭所有集群(关闭集群start改为 stop)
查看对应的hadoop02 03 可见启动成功
三 通过UI界面查看hadoop运行状态(确保服务主从节点已开启) - Windows访问hdfs:
C:\Windows\System32\drivers\etc 在这个路径下打开 host,填写如下,形成一一映射
关闭防火墙:
禁止防火墙开机启动:
上述两个操作在hadoop02 03上分别进行后 如图所示即为成功
- Windows访问yarn: