HDFS中数据迁移的使用场景和考量因素 - 代码天地

HDFS中数据迁移的使用场景和考量因素

企业开发 2023-10-03 04:22:56 阅读次数: 0

HDFS中数据迁移的使用场景和考量因素

数据迁移使用场景
数据迁移要素考量
HDFS分布式拷贝工具-DistCp
- distcp的优势性能
- 命令

数据迁移使用场景

冷热集群数据同步、分类存储
集群数据整体搬迁
- 当公司业务迅速的发展，导致的当前的服务器数量资源出现临时紧张的时候，为了更高效的利用资源，会将A机房数据整体迁移到B机房的，原因可能是B机房机器多，而且B机房本身开销较A机房低些等
数据的准实时同步
- 数据准实时同步的media在于数据的双倍份可用，比如某天A集群突然宣告不允许再使用了，此时可以将线上使用集群直接切向B的同步集群，因为B集群实时同步A集群数据，拥有完全一致的真实数据和元数据信息，所以对于业务方使用而言是不会收到任何影响的。

数据迁移要素考量

Bandwidth-带宽
- 带宽用的多了，会影响到线上业务的任务运行，带宽用的少了又会导致数据同步满的问题。
performance-性能
- 是采用简单的单机程序？还是多线程的性能更佳的分布式程序？
data-increment-增量同步
- 当TB,PB级别的数据需要同步的时候，如果每次以全量的方式去同步数据，结果一定是非常糟糕。如果仅针对变化的增量数据进行同步将会是不错的选择。可以陪着HDFS快照等技术实现增量数据同步。
syncable-数据迁移的同步性
- 数据迁移的过程中需要保证周期内数据是一定能够同步完的，不能差距太大。比如A集群7天内的增量数据，我只要花半天就可以完全同步到B集群，然后我有可以等到下周再次进行同步，最可怕的事情在于A集群的7天内的数据，我的程序花了7天还同步不完，然后下一个周期又来了，这样就无法做到准实时的一致性，其实7天还是一个比较大的时间，最好是能达到按天同步。

HDFS分布式拷贝工具-DistCp

DistCp是Hadoop中的一种工具，在hadoop-tools工程下，作为独立子工程存在。
定位用于数据迁移，定期在集群之间和集群内部备份数据
在备份过程中，每次运行distcp都成为一个备份周期。尽管性能相对较慢，但他的普及程度已经越来越高
distcp底层使用MapReduce在集群之间或并行在同一集群内复制文件。执行复制的MapReduce只有mapper阶段

distcp的优势性能

带宽限流
- distcp可以通过命令参数bandwidth来为程序进行带宽限流
增量数据同步
- 在distcp中可以通过updata，append和diff这三个参数实现增量同步
- updata 只拷贝不存在的文件或者目录
- append 最佳目标路径下已存在的文件
- diff 通过快照的diff对比信息来同步源端路径与目标路径
  updata解决了新增文件、目录的同步。append解决已存在的增量更新同步。diff解决删除或重命名类型文件的同步
高效的性能：分布式特性
- distcp底层使用MapReduce执行数据同步，MapReduce本身是一类分布式程序

命令

在这里插入图片描述

其中source_path，target_path需要带上地址前缀以区分不同的集群

hadoop distcp hdfs://src_cluster:8020/user/data hdfs://dest_cluster:8020/user/data_backup

这个命令告诉distcp工具将hdfs://src_cluster:8020/user/data目录下的数据复制到hdfs://dest_cluster:8020/user/data_backup目录下。

猜你喜欢

转载自blog.csdn.net/weixin_49750432/article/details/131996412

HDFS中数据迁移的使用场景和考量因素

大数据-数据存储：HDFS、MongoDB、HBase的区别和使用场景

hdfs特点及使用场景

hdfs中数据迁移

在mysql中#{}和${}的区别，使用场景

ArrayList的业务场景使用考量

Hive Hive中的数据分桶以及使用场景 hive的分区和分桶

ES6中新增加的Map和Set数据结构的使用场景

Vue中computed和watch使用场景和方法

AJAX中同步和异步的区别和使用场景

MQ中的使用场景

Hive中的数据分桶以及使用场景

Redis中的数据存储类型和相关应用场景

mysql 中 in/exists/not in/not exists/or的使用场景和效率对比

javascript中caller和callee区别以及使用场景

redis中的事务、lua脚本和管道的使用场景

js中 let var const 的差异和使用场景

Java中IO与NIO的区别和使用场景

在mybatis中#{}和${}的区别，使用场景及sql注入

聊聊面试中的 ThreadLocal 原理和使用场景

面试中的 ThreadLocal 原理和使用场景

Android中Activity的启动模式（LaunchMode）和使用场景

MySQL中exists和in的区别及使用场景

Android中Activity的启动模式和使用场景

sql中where和having的使用场景与区别

golang 中的 goto 用法和使用场景（转）

MapReduce中的Combiner函数的作用和使用场景

Redis 数据结构和具体使用场景

Redis和MySQL数据同步及Redis使用场景

Android 数据存储之ContentProvider 使用和应用场景

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

更多

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)