一、大数据生态圈
1. 大数据技术组件
- 数据采集组件:DataX,sqoop,logstash,flume等
- 数据计算组件:Spark Core,Spark Sql,Spark Streaming,Mapreduce,Hive Sql,Phoenix Sql,Storm
- 数据调度组件:Azkaban,oozie等
- 数据存储及中间件组件:Hbase,Hive,Redis,kafka等
- 集群搭建组件:CDH,Ambari等
- 数据挖掘相关组件:Spark Mlib,Spark Ml,Mahout等
- 集群相关日志及任务监控:Elastic Search,logstash,kabana,也就是ELK监控等
2. 大数据常用架构
- 日志埋点采集架构
- 数据实时计算架构
- 离线数据同步及离线计算任务的架构及调度
二、机器学习相关
大数据学习加QQ群:716581014