7.2.1、DataX__datax概述,框架,运行原理,datax以读写插件的形式存在

1、概述

阿里云开源软件异构数据源离线同步工具,致力于包括关系型数据库(Mysql,Oracle,Hdfs,Hive,Hbase)等各种异构数据源之间稳定高校的数据同步功能
任意两个之间都可以同步(因为都会抽象为读和写,可以读写就可以,以插件形式存在)
(1)性能:数据抽取性能高
(2)部署:可独立部署
(3)适用:在异构数据库/文件系统之间告诉交换数据

2、框架

在这里插入图片描述

Reader:数据采集模块,负责采集数据源的数据,将数据发送给Framework
Writer:数据写入模块,负责不断向Framework取数据,并将数据写入到目的端
Framework:用于连接reder和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题

3、运行原理

在这里插入图片描述

Job:单个作业的管理节点,负责数据清洗,子任务划分,TaskGroup监控管理
Task:由Job切分而来,是datax作业的最小单元,每个Task负责一部分数据的同步作业
Schedlu:将Task组成Group,单个TaskGroup的并发数量为5
TaskGroup:负责启动Task

4、DataX与Sqoop对比

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/nerer/article/details/120915187