(一).Hadoop的起源与背景知识
1,什么事大数据?两个例子,大数据的核心问题是什么?
2,概念:数据仓库(Data warehouse)
3,概念:OLTP和OLAP
4,(最重要的内容)Google的几篇论文:3篇
(1)GFS:Google File System ---->HDFS
(2)MapReduce计算模型 ---->Hadoop MapReduce
( 3 ) BigTable大表 ---->HBase是Nosql数据库
(二)实验环境
(三) .Apache Hadoop的体系结构(重要) :实现Google的思想论文
1.HDFS:Hadoop Distributed File System
(*)主从结构
(*)主节点:NameNode名称节点
(*)从节点:DataNade 数据节点
(*)SecondaryNameNode:第二名称节点
2.Yarn :是一个容器,运行MapReduce程序
(*)主从结构
(*)主节点:ResourceManager 资源管理器
(*)从节点:NodeManager 节点管理器
3.HBase:需要单独安装
(*)主从结构
(*)主节点:HMaster
(*)从节点:RegionServer
(四)Hadoop 2.X的安装与配置
Hadoop有三种安装模式
1.本地模式 一台Linux
2.伪分布模式 一台Linux
3.全分布模式 三台Linux
4.掌握免密码登陆的原理和配置
(五),Hadoop应用案例分析
1.大数据背景下,企业级系统的架构变化
2.HBase进行日志分析
3.了解:Hadoop在淘宝的应用。
(六),HDFS:Hadoop的分布式文件系统,数据存储
1,操作DHSF:(1)命令行 (2)Java API (3)Web Console
2,原理:数据上传的过程
数据下载的过程
3,HDFS的底层实现:RPC和动态代理
RPC:remote procedure call
4,高级特性
(*)回收站
(*)快照:是一种备份 snapshot
(*)配额quota:(1)名称配额 (2)空间配额
(*)安全模式:safemodo
(*)权限
(七)MapReduce:是一个计算模型,可以用Java实现
1.Demo:经典WordCount
2.重点:MapReduce处理数据的过程
3.原理:yarn执行MapReduce的过程
4.MapReduce的高级特性
(*)序列化(Serializable)
(*)排序
(*)分区
(*)合并
5.MapReduce的核心:shuffle(洗牌)
6.编程案例:
(*)排序:order By
(*)去重:distinct
(*)多表查询
(*)倒排索引
补充:Mysql数据库
(八),Hive:蜂巢 数据分析的引擎 ,翻译器 SQL--------->MapReduce
(九),Pig:猪 数据分析的引擎,翻译器 PigLatin语言 --->MapReduce
(十),HBase:NoSQL数据库
1.是基于Hadoop之上的Nosql
2.体系结构:HMaster,RegionServer
3.搭建:本地模式,伪分布模式,全分布模式
4.操作:命令行,Java Api,web console
5.过滤器;实现复杂的查询
6.HBase上的MapReduce
(十一),Sqoop:数据采集引擎,采集关系型数据库的数据
(十二),Flume:数据采集引擎,采集日志
(十三),HUE:基于web的管理工具
(十四),ZooKeeper:相当于是一个数据库实现HA(High Avaiblily高可用性)
(十五).Hadoop的集群和HA
1.HDFS的联盟(Faderation)
2.Hadoop的HA(High Avaiblity高可用性)
(十六)Redis:基于内存的Nosql数据库,提高性能
(十七)Storm:处理流式数据(实时计算)
集成Storm和Redis