一、什么是Hadoop
Hadoop是一个开源的Apache下的软件。它更容易开发和处理大规模数据的软件平台。 分为两部分: HDFS(分布式文件系统) MapReduce 提供的云计算平台基础架构
二、 Hadoop优点:
1.可扩展性 : 部署集群好后,不用重新部署,只要直接增加节点(例如:加机器)就可以进入集群。
2.经济性 : 不说了。
3.可靠性
4.高效性 : 运算能力比较好
三、 Hadoop架构:
PIG HIVE HBASE ZOOKEEPER |
MapReduce |
HDFS |
1、pig: 是有一套自己的源于,不用考虑自己写MapReduce程序
2、HIVE: 是一个数据仓库,它提供类SQL,(把HADOOP的文件映射成表)
3、Hbase 是一个分布式数据库。
4、zookeeper 是一个分布式的协调框架。
5、hdfs是一个运行在普通的硬件上的分布式文件系统
特点:高容错性
它可以部署在廉价的硬件上
高吞吐量(可以并行的去读写数据)
6、 mapReduce
分布式的计算机模型
map用于处理数据
reduce 用于合并结果