大数据-hadoop基本理论知识 - 代码天地

大数据-hadoop基本理论知识

其他 2020-04-15 14:04:04 阅读次数: 0

Hadoop基本理论知识

HDFS(Hadoop Distributed File System)基于Google发布的论文设计开发
具备其它分布式文件系统相同特性外，还有特有的特性：
高容错性：认为硬件总是不可靠的
高吞吐量：认为大量数据访问的应用提供高吞吐量支持
大文件存储：支持存储TB-PB级别的数据
HDFS适合做什么？
大文件存储与访问
流式数据访问
HDFS不适合做什么？
大量小文件存储
随机写入
低延迟读取

HDFS应用场景举例：

HDFS是Hadoop技术框架中的分布式文件系统，对部署在独立物理机器上的文件进行管理。
可用于多种场景，如：
网站用户行为数据存储
生态系统数据存储
气象数据存储

基本系统架构

在这里插入图片描述

HDFS架构关键设计

在这里插入图片描述

HDFS高可靠性（HA）

在这里插入图片描述

元数据持久化

配置HDFS数据存储策略

默认情况下，HDFS NameNode自动选择DataNode保存数据的副本。实际业务中，存在以下场景：
DataNode上存在的不同的存储设备，数据需要选择一个合适的存储设备分级存储数据
DataNode不同目录中的数据重要程度不同，数据需要根据目录标签选择一个合适的DataNode节点保存
DataNode集群使用了异构服务器，关键数据需要保存在具有高度可靠性的节点组中。

HDFS数据完整性保障

HDFS主要目的是保证存储数据完整性，对于各组件的失效，做了可靠性处理。
重建失效数据盘的副本数据：DataNode向NameNode周期上报失败时，NameNode发起副本重建动作以恢复丢失副本。
集群数据均衡：数据均衡机制，此机制保证数据在各个DataNode上分布是平均的
元数据可靠性保证
采用日志机制操作元数据，同时元数据存放在主备NameNode上
快照机制实现了文件系统常见的快照机制，保证数据误操作时，能及时恢复。
安全模式：在数据节点故障，硬盘故障时，能防止故障扩散。

常用shell命令

在这里插入图片描述

美妙的时光

发布了26 篇原创文章 · 获赞 5 · 访问量 777

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44730235/article/details/105051565

大数据-hadoop基本理论知识

数据库基本理论知识一

软件测试基本理论知识

HBase基本理论知识

缺陷基本理论知识

LVM分区的基本理论知识

二叉树的基本理论知识

领域驱动设计基本理论知识总结

DDD领域驱动设计基本理论知识总结

文件（C语言）的基本理论知识

DDD领域驱动设计基本理论知识总结 DDD领域驱动设计基本理论知识总结

大数据启蒙--理论知识

大数据理论知识

链表基本理论知识与链表实现LRU缓存思路+java实现链表基本操作

sqoop基本理论知识,安装搭建及常用命令

大数据专栏 | HDFS详解（理论知识）

基于大数据的数据仓库-数据仓库建模基本理论

异常的基本理论

性能基本理论

MySQL基本理论

测试基本理论

oracle数据库理论知识

数据库理论知识

数据仓库理论知识

大数据-hadoop理论

HBase基础理论知识第四章：大数据の HBase 基础

大数据学习笔记——HDFS理论知识之编辑日志与镜像文件

机器学习基本理论和知识点

Hadoop7days-6HBase理论知识

写给自己的数据库基本理论

今日推荐

周排行

(BIND最佳实践)Linux运维最佳实践

makefile ifeq之坑: 1. syntax error near unexpected token 2. *** missing separator. Stop.

easyui datagrid操作栏内置图片按钮

SQLyog连接MySQL时出现的2058错误解决方法

linux音频开发

hashcode方法简析

SpringBoot中使用Transaction注解遇到的坑

逆战-CSS中子元素在父元素中的4种水平垂直居中方法

Expression.Blend.4 Chapter 图片和视频的使用

springMVC返回void值

每日归档

更多

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)