1000台和1台搭建没有区别:
主要是流程和zookeeper
先搭建一台,然后scp分发就好了
Ha,两个namenode,4个journalnode
Hdfs的持久化数据:
Edis:存放在外部的集群中
Apache Hadoop 不足之处
版本管理混乱
部署过程繁琐、升级过程复杂
兼容性差
安全性低
Hadoop 发行版
Apache Hadoop
Cloudera’s Distribution Including Apache Hadoop(CDH)
Hortonworks Data Platform (HDP)
MapR
EMR
…
CDH有4.X,5.X
Clouder公司:
CDH是一个包,里边包含很多的版本号。
用一台格式化
另一台同步过去。
Zkfc将人解耦出来。
Zkfc启动,首先需要
用zkfc格式化zookeeper
4台和1000台没有什么区别,主要是一些细节步骤,依赖关系。
1000台已填就能搭建完成,只是需要拷贝,浪费时间。
Hadoop发行版
Linux:centos
Genolinux
内核只有一个,一堆软件。
CDH:一个包,由Cloudera公司提供的一些版本和号
Hbase刚出2.0版本,之前是1.2,我们学习的是0.98
Hive现学习的是1.2的版本。
HDP:hortonworks data platform
国内大数据平台:华为,星环,有政策保护,把开源的东西拿过来包装,包装成的一些技术,
比如hbase索引,二级缓存,
国外:Cloudera公司
大数据包里边包含着大数据技术。
Hive中底层是MapReduce,频繁的io操作
Hive是接受sql的东西
Hive的两个功能:
元数据管理
Sql直接引擎,计算
MapReduce是基于擦盘I/O迭代的。
Hive就是留下metastore,只需要记下表就行,因为它把文件转换成表。
直接下载这一个包,然后解压安装就行。
Hadoop的生态圈:
Hadoop项目:
Yarn:支持资源管理
Hdfs:支持内存,
MapReduce:支持离线计算
Common:
数据搜索
Cloudera’s Distribution Including Apache Hadoop(CDH)
Cdh:Cloudera manager:管理硬件裸机,解决后续集群的复杂度的问题。静态包,把大数据的所有软件仍在里边了。
CM:Cloudera manager:集群的管理,部署里边和启动停止的管理工作
Cms:运行期的所有硬件软件管理
Cloudera manager公司提供三个东西:
cdh:静态包,把大数据的所有软件仍在里边了。
CM:Cloudera manager:集群的管理,部署里边和启动停止的管理工作
Cms:Cloudera managementservice:运行期的所有硬件软件软件等所有情况的报警等的统计。统计报表和预警
大数据平台一般不能访问外网