HDFS Block块大小探讨

其他 2020-02-14 11:16:04 阅读次数: 0

在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；在Hadoop2.x的版本中，文件块的默认大小是128M，老版本中默认是64M；寻址时间：HDFS中找到目标文件块（block）所需要的时间。原理：

文件块越大，寻址时间越短，但磁盘传输时间越长
文件块越小，寻址时间越长，但磁盘传输时间越短

HDFS中block不能设置太大，也不能太小

如果块设置过大，一方面，从磁盘传输数据的时间会明显大于寻址时间，导致程序在处理这块数据时，变得非常慢；另一方面，mapreduce中的map任务通常一次只处理一个块中的数据，如果块过大运行速度也会很慢。
如果块设置过小，一方面存放大量小文件会占用NameNode中大量内存来存储元数据，而NameNode的内存是有限的，不可取；另一方面文件块过小，寻址时间增大，导致程序一直在找block的开始位置。

因而，块适当设置大一些，减少寻址时间，那么传输一个由多个块组成的文件的时间主要取决于磁盘的传输速率。

HDFS中block大小为何为128M？

HDFS中平均寻址时间大概为10ms
经过前人的大量测试发现，寻址时间为传输时间的1%时，为最佳状态；

所以最佳传输时间为10ms/0.01=1000ms=1s
目前磁盘的传输速率普遍为100MB/s；

计算出最佳block大小：100MB/s x 1s = 100MB

所以设定block大小为128MB。

实际在工业生产中，磁盘传输速率为200MB/s时，一般设定block大小为256MB；磁盘传输速率为400MB/s时，一般设定block大小为512MB。

K. Bob

发布了138 篇原创文章 · 获赞 45 · 访问量 8万+

私信关注

猜你喜欢

转载自blog.csdn.net/ThreeAspects/article/details/104294513

HDFS Block块大小探讨

Hdfs block数据块大小的设置规则

HDFS文件块（block）大小设定依据

HDFS中block的大小

HDFS 文件块大小

HDFS 块大小设置

HDFS文件系统Block块

HDFS中的数据块(Block)

Hadoop HDFS 文件块大小

HDFS block块的副本存放策略

HDFS block块损坏以及修复

HDFS中Block size的默认大小

【Hadoop学习之HDFS】_05HDFS文件块大小

hdfs为什么要用block以及block大小的设置

改变hdfs文件系统存储的块大小

HDFS文件块大小(面试重点)

HDFS块大小的计算与设计规则

HDFS 冗余数据块（Block）的自动删除

[Hadoop shell命令]--处理hdfs上错误的block块并修复

hdfs的架构以及block块和副本机制

Hadoop hdfs block 状态

hdfs丢失block处理

Split ，HDFS Block

HDFS中的block

hdfs的block损坏

(转)HDFS里Datanode上block大小的设置问题

【查看修复HDFS中丢失的块】org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP

hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息(Locations)

hdfs深入：03、hdfs的架构以及副本机制和block块存储

hdfs无效块修复

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)