大数据学习路线
大数据的本质
(1)数据的存储:分布式文件系统(分布式存储)
(2)数据的计算:分布式计算
Java和大数据的关系
- Hadoop:基于java语言开发
- Spark:基于Scala语言,Scala基于Java语言
学习大数据需要的基础和路线
- java基础(javaSE) —— 类,继承,I/O,反射,泛型…
- Linux基础(Linux操作)—— 创建文件,目录,vi编辑器
学习路线:
- java基础和Linux基础
- Hapdoop学习:体系结构,运行机制,原理,编程
第一阶段:
HDFS,MapReduce,HBase(NoSQL数据库)
第二阶段:
数据分析引擎 —— Hive,Pig
数据采集引擎 —— Sqoop,Flume
第三阶段:
HUE:Web管理工具
ZooKeeper:实现Hadoop的HA
Oozie:工作流引擎
- Spark的学习
第一阶段:
Scale编程语言
第二阶段:
Spark Core —— 基于内存,数据的计算
第三阶段:
Spark SQL —— 类似Oracle中的SQL语句
第四阶段:
Spark Streaming —— 实时计算(流式计算)
- Apache Storm的学习
类似于Spark Streaming —— 实时计算(流式计算)
NoSQL:Redis基于内存的数据库