Hadoop生态系统完整组件及其在架构中的作用

其他 2018-09-05 23:37:28 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/cjDaShuJu_Java/article/details/80050858

（1）Hadoop生态系统

（2）、HDFS（Hadoop分布式文件系统）

HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

（3）、Mapreduce（分布式计算框架）

MapReduce是一种计算模型，用以进行大数据量的计算。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

（4）、Hive（基于Hadoop的数据仓库）

由facebook开源，最初用于解决海量结构化的日志数据统计问题。Hive定义了一种类似SQL（传统数据库）增删改查将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。

（5）、Hbase（分布式列存数据库）

HBase是一个针对结构化数据的可伸缩、高可靠、高性能、同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。开源免费

（6）、Zookeeper（分布式协作服务）

解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。用作分布式协调

（7）、Sqoop（数据同步工具）

Sqoop是SQL-to-Hadoop的缩写，主要用于传统数据库和Hadoop之前传输数据（数据迁移）数据的导入和导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。

（8）、Pig（基于Hadoop的数据流系统）

由yahoo!开源，设计动机是提供一种基于MapReduce的ad-hoc(计算在query时发生)数据分析工具通常用于进行离线分析。

（9）、Flume（日志收集工具）

Cloudera开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。Flume还具有能够将日志写往各种数据目标（可定制）的能力。总的来说，Flume是一个可扩展、适合复杂环境的海量日志收集系统。

猜你喜欢

转载自blog.csdn.net/cjDaShuJu_Java/article/details/80050858

Hadoop生态系统完整组件及其在架构中的作用

【大数据】图解 Hadoop 生态系统及其组件

Hadoop生态系统架构

Hadoop生态系统

Hadoop 生态系统

大数据生态系统组成，各组件及其作用（持续补充）

12.Hadoop及其生态系统

大数据 Hadoop的生态系统和组件

Hadoop生态系统常用组件导图

Hadoop生态系统功能组件，主要包括哪些？

关hadoop生态系统的架构图

hadoop生态系统主要架构图汇总

Hadoop生态系统安装

Hadoop生态系统及版本

hadoop生态系统介绍

Hadoop工具生态系统指南

Hadoop生态系统概述

Hadoop主要生态系统简介

Hadoop生态系统的详细介绍

什么是 Hadoop 生态系统

hadoop生态系统基本介绍

hadoop生态系统初探

大数据 Hadoop生态系统

初入Hadoop生态系统

Hadoop版本和生态系统

二、hadoop生态系统

大数据——Hadoop生态系统

【_ 記】Hadoop 生态系统

Hadoop生态系统简介

Hadoop生态系统全面介绍

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)