作者:向师富 转自:阿里巴巴数据中台官网 https://dp.alibaba.com
采集&传输层
- Sqoop
Hadoop、关系型数据库之间传输数据的工具。传输时,会启动多个MR作业并发的传输数据 - DataX
阿里巴巴开源的数据同步工具,用来在各种异构数据源之间同步数据。比如 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。部署、运维非常简单,将DataX的jar包copy到linux系统中即可运行 - Flume
分布式的高可用的数据收集、聚集的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,结合Kafka的消息队列功能,实现实时日志处理、离线日志投递。 典型的使用方案是:
离线计算:应用系统日志 -> flume -> kafka ->