CDH的学习(概述)

1000台和1台搭建没有区别:

主要是流程和zookeeper

先搭建一台,然后scp分发就好了

Ha,两个namenode4journalnode

Hdfs的持久化数据:

Edis:存放在外部的集群中

Apache Hadoop 不足之处

版本管理混乱

部署过程繁琐、升级过程复杂

兼容性差

安全性低

Hadoop 发行版

Apache Hadoop

Clouderas Distribution Including Apache HadoopCDH

Hortonworks Data Platform (HDP)

MapR

EMR

CDH4.X5.X

Clouder公司:

CDH是一个包,里边包含很多的版本号。

用一台格式化

另一台同步过去。

Zkfc将人解耦出来。

Zkfc启动,首先需要

zkfc格式化zookeeper

4台和1000台没有什么区别,主要是一些细节步骤,依赖关系。

1000台已填就能搭建完成,只是需要拷贝,浪费时间。

Hadoop发行版

Linux:centos

Genolinux

内核只有一个,一堆软件。

CDH:一个包,由Cloudera公司提供的一些版本和号

Hbase刚出2.0版本,之前是1.2,我们学习的是0.98

Hive现学习的是1.2的版本。

HDPhortonworks data  platform

国内大数据平台:华为,星环,有政策保护,把开源的东西拿过来包装,包装成的一些技术,

比如hbase索引,二级缓存,

国外:Cloudera公司

大数据包里边包含着大数据技术。

Hive中底层是MapReduce,频繁的io操作

Hive是接受sql的东西

Hive的两个功能:

元数据管理

Sql直接引擎,计算

MapReduce是基于擦盘I/O迭代的。

Hive就是留下metastore,只需要记下表就行,因为它把文件转换成表。

直接下载这一个包,然后解压安装就行。

Hadoop的生态圈:

Hadoop项目:

Yarn:支持资源管理

Hdfs:支持内存,

MapReduce:支持离线计算

Common

数据搜索

Clouderas Distribution Including Apache HadoopCDH

Cdh:Cloudera manager:管理硬件裸机,解决后续集群的复杂度的问题。静态包,把大数据的所有软件仍在里边了。

CMCloudera manager:集群的管理,部署里边和启动停止的管理工作

Cms:运行期的所有硬件软件管理

Cloudera manager公司提供三个东西:

cdh:静态包,把大数据的所有软件仍在里边了。

CMCloudera manager:集群的管理,部署里边和启动停止的管理工作

Cms:Cloudera managementservice:运行期的所有硬件软件软件等所有情况的报警等的统计。统计报表和预警

大数据平台一般不能访问外网

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81058222
CDH