（一）.Hadoop的起源与背景知识

1,什么事大数据?两个例子，大数据的核心问题是什么？

2，概念：数据仓库（Data warehouse）

3,概念：OLTP和OLAP

4，（最重要的内容）Google的几篇论文：3篇

（1）GFS：Google File System ---->HDFS

（2）MapReduce计算模型 ---->Hadoop MapReduce

( 3 ) BigTable大表 ---->HBase是Nosql数据库

（二）实验环境

(三) .Apache Hadoop的体系结构（重要）：实现Google的思想论文

1.HDFS:Hadoop Distributed File System

(*)主从结构

(*)主节点：NameNode名称节点

(*)从节点：DataNade 数据节点

(*)SecondaryNameNode:第二名称节点

2.Yarn :是一个容器，运行MapReduce程序

（*）主从结构

（*）主节点：ResourceManager 资源管理器

（*）从节点：NodeManager 节点管理器

3.HBase:需要单独安装

(*)主从结构

(*)主节点：HMaster

(*)从节点:RegionServer

(四)Hadoop 2.X的安装与配置

Hadoop有三种安装模式

1.本地模式一台Linux

2.伪分布模式一台Linux

3.全分布模式三台Linux

4.掌握免密码登陆的原理和配置

（五），Hadoop应用案例分析

1.大数据背景下，企业级系统的架构变化

2.HBase进行日志分析

3.了解：Hadoop在淘宝的应用。

（六），HDFS:Hadoop的分布式文件系统，数据存储

1，操作DHSF：(1)命令行（2）Java API （3）Web Console

2,原理：数据上传的过程

数据下载的过程

3，HDFS的底层实现：RPC和动态代理

RPC：remote procedure call

4,高级特性

(*)回收站

(*)快照：是一种备份 snapshot

(*)配额quota：（1）名称配额（2)空间配额

(*)安全模式：safemodo

(*)权限

（七）MapReduce:是一个计算模型，可以用Java实现

1.Demo:经典WordCount

2.重点：MapReduce处理数据的过程

3.原理：yarn执行MapReduce的过程

4.MapReduce的高级特性

（*）序列化(Serializable)

（*）排序

（*）分区

（*）合并

5.MapReduce的核心：shuffle(洗牌)

6.编程案例：

(*)排序：order By

(*)去重:distinct

(*)多表查询

(*)倒排索引

补充：Mysql数据库

（八），Hive:蜂巢数据分析的引擎，翻译器 SQL--------->MapReduce

(九)，Pig:猪数据分析的引擎，翻译器 PigLatin语言 --->MapReduce

（十），HBase:NoSQL数据库

1.是基于Hadoop之上的Nosql

2.体系结构：HMaster,RegionServer

3.搭建：本地模式，伪分布模式，全分布模式

4.操作：命令行，Java Api,web console

5.过滤器；实现复杂的查询

6.HBase上的MapReduce

(十一)，Sqoop:数据采集引擎，采集关系型数据库的数据

（十二），Flume:数据采集引擎，采集日志

（十三），HUE：基于web的管理工具

（十四），ZooKeeper:相当于是一个数据库实现HA（High Avaiblily高可用性）

（十五）.Hadoop的集群和HA

1.HDFS的联盟（Faderation）

2.Hadoop的HA（High Avaiblity高可用性）

（十六）Redis:基于内存的Nosql数据库，提高性能

（十七)Storm:处理流式数据（实时计算）

集成Storm和Redis

Hadoop的知识架构