Hadoop的数据迁移 - 代码天地

Hadoop的数据迁移

其他 2020-03-26 19:50:52 阅读次数: 0

主要的命令：DistCp

官方有明确的解释：http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html

概述：

DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的地方。这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。

使用方法：

DistCp最常用在集群之间的拷贝：

hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo

这条命令会把nn1集群的/foo/bar目录下的所有文件或目录名展开并存储到一个临时文件中，这些文件内容的拷贝工作被分配给多个map任务，然后每个TaskTracker分别执行从nn1到nn2的拷贝操作。注意DistCp使用绝对路径进行操作。

同步的命令：

hadoop distcp -pc -m 40 hdfs://xx.xx.xx.00:8020/user/hive/warehouse/test.db/table_name/ hdfs://xx.xx.xx.01:8020/user/hive/warehouse/test.db/table_name

在hive中进行修复表分区
msck REPAIR TABLE table_name;

在impala中修复元数据
INVALIDATE METADATA table_name;

猜你喜欢

转载自www.cnblogs.com/hello-wei/p/12576743.html

hadoop集群数据迁移

Hadoop单机数据迁移

hadoop 数据迁移

Hadoop的数据迁移

Hadoop数据迁移 distcp 工具

hadoop 集群间数据迁移

hadoop集群间数据迁移

Hbase 整合 Hadoop 的数据迁移

Hadoop+Hbase集群数据迁移问题

hadoop集群间的hbase数据迁移

Hadoop数据迁移MaxCompute最佳实践

hadoop跨集群之间迁移hive数据

hadoop集群间数据迁移工具

不同hadoop集群之间迁移hive数据

Sqoop迁移Hadoop与RDBMS间的数据

从Oracle迁移数据到Hadoop

Hadoop数据迁移：使用importtsv两步载入数据

大数据技术之Hadoop(十)——Sqoop数据迁移

hadoop 0.20.203 数据迁移至 cdh3u3

Hadoop集群客户端安装Sqoop以及数据迁移

Mysql 与 hadoop 数据同步（迁移），你需要知道 Sqoop

通过hadoop distcp进行集群间数据迁移

hadoop hdfs 数据迁移到其他集群

自建Hadoop数据迁移到阿里云EMR

Hadoop跨集群迁移数据（整理版）

不同的Hadoop 集群之间或版本之间的数据如何迁移

hadoop集群zookeeper迁移

Hadoop迁移Namenode

Hadoop的备份或迁移

Hadoop节点迁移

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)