2019年最新大数据大纲 ---大数据离线实时部分课程内容大纲

-------------------大数据阶段理论+实战项目一共是 71天----------------------

hadoop阶段教学目标：

1.掌握hadoop离线计算变成
2.熟练使用mapreduce
3.熟练使用linux常用命令
4.熟练使用hive hql

-----------hadoop阶段----------------linux部分-----------------5天------------------

第一天

教学目标

1.了解Linux产生背景原因
2.具有理解Linux应用场景的能力
1.了解Linux系统特点及应用领域，掌握虚拟机软件的应用，掌握如何安装部署一台Linux服务器，
2.具有在已有Linux平台下进行启动、关机、执行命令的能力
3.学会远程登录管理软件的应用

知识内容：

1.了解什么是操作系统
2.了解什么是Linux
3.了解Linux之前，Unix的历史
4.了解GNU计划
5.与Minix之间
6.Linux的发展
7.Linux的各个发行版本
8.RPM包管理器的使用

第二天

教学目标

1.掌握Linux常用命令操作及基本权限管理
2.了解Linux平台的简单配置
3.vi简单的编辑能力
4.具有熟练使用Linux 常用命令的能力
5.具有通过命令辅助使用Linux命令的能力
6.熟练使用vi编辑器

知识内容：
1.了解Linux安装流程
2.理解Linux部署
3.理解Linux基本操作命令

第三天

教学目标
1.具有独立在Linux平台对网络进行配置的能力
2.能够在不同平台间对文件共享
3.具有简单排除常见错误的能力"
4.掌握编写Shell脚本及典型的企业自动化脚本实现

知识内容：

1.磁盘操作相关
2.权限管理相关
3.文件查找
4.自带帮助
5.压缩解压
6.网络相关
7.系统级相关
8.vi的使用
9.linux高级文本处理命令cut、sed、awk

第四天

教学目标

1.掌握linux安装oracle12c,JDK的安装
2.掌握vmware，virtualBox这两款虚拟机软件的使用
3.掌握安装centos6.5-7.5的版本

知识内容：

1.系统监测与维护相关命令
2.定时任务crontab
3.掌握各个运行级别及服务启动控制，掌握Linux各种软件包的安装、卸载、升级、校验、查询和文件提取操作
4.了解Linux系统监测相关命令

第五天

教学目标
1.掌握linux安装mysql,linux安装tomcat
2.掌握redhat 版本的linux安装以及oracle的oracle linux安装

知识内容：

1.Linux网络管理命令
2.Linux网络配置文件
3.网络寻址机制解析
4.文件共享服务
5.可以完成Linux的网络配置，
6.掌握互联网的寻址流程和原理
7.掌握如何通过Window远程管理Linux服务器
8.掌握如何构建FTP/SSH服务应用
9.掌握如何实现不同系统平台之间的文件共享

---------------------------hadoop阶段---------hadoop框架部分----------10天----------------

第一天
教学目标

1.具有独立描述大数据应用场景的介绍能力
2.理解大数据的发展历程
3.掌握大数据相关技术的应用范畴

知识内容：

1.大数据历史
2.大数据出现的原因
3.大数据解决的问题
4.大数据目前的发展状态
5.大数据未来的
6.我们生活中各行业的大数据应用
7.云计算的概念
8.选择hadoop的原因(拆分前导课)
9.hadoop在云计算中的作用
10.hadoop依赖的所有技术，和之前课程的联系

第二天

教学目标

1.具有独立安装单机版和伪分布模式的能力
2.掌握单机版和伪分布的区别
3.掌握搭建伪分布的安装步骤
4.具有简单排除常见错误的能力

知识内容：

1.介绍单机版和伪分布式安装
2.详细介绍每个方式的区别，解决什么问题
3.详细的配置，并对每个配置文件做深入讲解。（重点的配置文件的参数，默认的配置的意义）
4.能够查看hadoop进程
5.理解hadoop启动的整个过程

第三天

教学目标
1.具有独立部署hadoop集群的能力
2.具有独立部署HA集群的能力
3.熟练掌握hadoop相关的命令
4.具有简单排除常见错误的能力

知识内容：

1.hadoop集群的搭建、HA安装（ZK）
2.介绍并带领学生使用hadoop的命令，操作hadoop集群文件的上传、下载、删除等操作
3.日志错误信息、常见的错误处理方式

第四天

教学目标

1.具有独立阐述HDFS相关概念的能力
2.熟练掌握HDFS的运行原理
3.具有简单排除常见错误的能力
4.具有独立使用HDFS API的编程能力
5.通过代码级操作实现HDFS的基本增删改查命令
6.具有简单排除常见错误的能力

知识内容：

1.块的概念、块的好处、冗余备份、块的切分
2.元数据概念
3.NameNode工作原理
4.DataNode工作原理
5.Secondary NameNode
6.客户端
7.HDFS文件操作过程
8.元数据的持久化
9.什么是EditsLog和FSImage静像文件
10.EditsLog和FSImage合并——Checkpoint机制
11.EditsLog和FSImage——NameNode
12.EditsLog和FSImage——Secondary NameNode
13.EditsLog和FSImage——NameNode与Secondary NameNode
14.HDFS命名空间
15.安全模式、心跳机制、机架感知
16.传本地文件到HDFS
17.从HDFS下载文件到本地
18.创建HDFS文件
19.创建HDFS目录
20.重命名HDFS文件
21.删除HDFS文件
22.删除HDFS目录
23.查看某个文件是否存在
24.数据类型，writeable接口

第五天

教学目标
1.掌握Yarn资源框架的原理
2.新老版本的对比
3.掌握mapreduce编程模型的开发
4.具有独立描述Mapreduce执行过程的能力
5.熟练掌握mapReduce的容错性
6.掌握shuffle运行机制

知识内容：
1.客户端程序与ResourceManager交互
2.客户端存贮封装信息
3.ResourceManager调用NodeManager
4.NodeManager划分资源池
5.ResourceManager调用MapReduce程序
6.执行运算
7.hadoop伪分布式安装、HA安装，加入YARN的进程，反推理论
8.运行MR程序，观察YARN在程序运行中的处理过程
9.hadoop1.0到2.0的变化
10.MapReduce产生背景
11.MapReduce官方解释
12.MapReduce特点
13.MapReduc计算流程：inputsplit、mapper、combine、shuffle、sort、reducer
14.MapReduce容错性
15.MapReduce推测机制
16.MapReduce应用场合
17.MR的整个流程的图解
18.经典的MR编写（计数器、InputFormat输入格式、OutputFormat输出格式、单词计数程序Combiner优化、去重编程、
平均程序、数据排序、全排序、倒排序、二次排序、单表关联、多表关联、join连接）
19.排序算法，归并排序，底层源码，分区算法
20.讲解job提交作业的流程
21.shell脚本控制两个MR，一个程序两个MR
22.通过WebUI查看log日志

第六天

教学目标

1.具有独立编写MR的能力
2.掌握mapreduce的填空式编程
3.具有简单排除常见错误的能力

知识内容：
1.linux定时任务制定
2.数据库数据存贮（sqoop抽取数据）
3.数据库的数据抽取
4.数据的清洗（MR自身程序完成包括正则表达式）
5.MR数据分析
6.数据形式转化
7.数据入库
8.数据展示（Echars）（hadoop微博明星人气统计展示）
9.回顾前面主要知识点串线

第七天
hadoop综合实战项目（1）

第八天

hadoop综合实战项目（2）

第九天

hadoop综合实战项目（3）

第十天

hadoop综合实战项目（4）

-------------------hadoop生态阶段-----hive部分---------8天------------------

第一天

教学目标

1.了解Hive产生背景原因
2.具有理解Hive应用场景的能力
3.深度理解HQL解析成MapReduce原理
使学生理解Hive存在的意义，掌握Hive适用场景，为下一步学习打下基本理论基础

知识内容：

1.理解Hive产生的原因
2.理解HQL解析成MapReduce原理的工作流程
3.理解Hive体系结构
4.理解Hive应用场景
5.初步理解Hive与传统数据仓库的异同

第二天

教学目标

1.具有独立进行Hive简单维护操作能力
2.具有理解并使用Hive命令的能力
3.具有初步应用JDBC调用Hive的能力
使学生理解Hive开发流程，为后面Hive应用学习打好思想上的基础

知识内容：
1.掌握Hive启动过程、表内容查看几种方式
2.掌握最基本Hive命令操作知识
3.初步理解Java通过JDBC调用Hive的过程
4.了解Hive安装前的准备工作
5.理解Hive内嵌、独立、远程三种安装模式
6.熟练掌握Hive远程安装过程

第三天

教学目标

1.具有依据实际业务，正确建立Hive表的能力
2.具有依据业务正确应用JDBC调用Hive的能力
3.具有了解Hive几中服务的能力
4.具有建立表、修改表、删除表的操作能力
5.具有结合业务，结合数据类型、存储格式正确建立表的能力
6.具有正确应用Select查询的能力
7.具有结合业务，正确进行计算的能力
8.具有结合业务，正确应用条件语句的能力

知识内容：

1.理解HiveQL数据类型及转换机制
2.理解Hive文本文件数据编码格式
3.初步了解表存储格式
4.熟练掌握Hive建表操作方法
5.熟练Java通过JDBC调用Hive过程
6.了解Hive的几中服务：Hive Shell、JDBC/ODBC、Thrift服务、Web接口

第四天

教学目标

1.具有正确应用Group By查询的能力
2.具有结合业务，正确进行Join操作的能力
3.具有结合SQL与MapReduce理解Join的能力
4.具有正确对业务数据进行排序及过滤的能力
5.具有结合业务，正确进行Order By、Sort By、Distribute By、Cluster By操作的能力
6.具有结合业务正确使用Union All的能力

知识内容：

1.深入理解存储格式
2.掌握创建表的语法
3.掌握导入数据、删除表、修改表的操作
4.了解使用正则表达式来指定列
5.掌握列值计算、算数运算符的使用方法
6.掌握函数、Limit语句的使用方法
7.熟练列别名、嵌套Select句式
8.熟练CASE-When-Then句式
9.When语句
10.熟练Group By语句用法
11.熟练内连接、左外连接、右外连接、半连接的用法
12.理解Map连接的用法
13.掌握Order By、Sort By、Distribute By、Cluster By用法
14.掌握Union All语法
15.回顾前面主要知识点串线

第五天

教学目标

1.具有理解分桶过程原理，并正确应用的能力
2.具有理解分区过程原理，并正确应用的能力
3.具有理解视图过程原理，并正确应用的能力
4.具有理解索引过程原理，并正确应用的能力
5.具有正确理解Hive函数应用原因
6.具有正确理解调用函数的应用过程
7.具有正确应用标准函数的能力
8.具有正确应用聚合函数的能力
9.具有正确应用表生成函数的能力
10.具有正确编写常规应用的UDF、UDAF的能力
11.具有熟练在Hive中应用UDF、UDAF的能力
12.具有基本综合应用知识点的能力

知识内容：

1.分区的原理和用法
2.分桶的原理和用法
3.视图的原理和用法
4.索引的原理和用法
5.理解Hive函数应用原因
6.掌握调用函数的应用过程
7.掌握标准函数的应用过程
8.掌握聚合函数的应用过程
9.掌握表生成函数的应用过程
10.掌握编写UDF的基本语法过程
11.掌握编写UDAF的基本语法过程
12.考核HiveQL基本应用
13.考核分区、分桶、视图、索引应用
14.考核函数，尤其是自定义函数的应用
15.回顾前面主要知识点串线

第六天

hive综合实战项目（1）

第七天

hive综合实战项目（2）

第八天

hive综合实战项目（3）

-------------------hadoop生态阶段-----hbase部分-------4天--------------------

第一天

教学目标
1.了解HBase产生背景原因
2.具有理解HBase应用场景的能力
3.具有正确理解HBase基于HDFS工作过程的能力
4.掌握HBase安装相关理论
5.具有在已有HBase平台下进行启动、停止、查看日志文件的能力
6.具有在已有HBase平台下简单用Shell建表、查表，用HDFS、Web UI查看表结果的能力

知识内容：
1.了解HBase概念
2.掌握HBase旧版本体系结构（新版本还需要查找）
3.掌握HBase工作原理
4.掌握HBase的组成
5.掌握HBase的容错性
6.理解HBase应用场景
7.了解HBase安装流程理论
8.理解HBase安装模式理论
9.掌握HBase安装及验证理论
10.理解HBase基本应用操作
11.了解查看HBase表内容的几种方式

第二天
教学目标
1.具有结合理论进行HBase本地安装的能力
2.具有独立搭建Eclipse+HBase开发环境的能力
3.具有HBase平台启动、停止、查看日志等简单维护操作的能力
4.具有独立搭建HBase分布环境的能力
5.具有独立搭建Zookeeper的能力
6.具有理解HBase Shell基本命令及HBase API应用的能力
7.具有基本的扩展知识学习的能力

知识内容：

1.掌握HBase版本选择的依据
2.理解HBase本地模式安装过程
3.熟练HBase单机模式安装的相应命令
4.掌握Eclipse+HBase开发环境搭建过程
5.掌握查看HBase表内容的几种方式
6.理解HBase伪分布式安装流程
7.掌握HBase分布式安装过程
8.掌握Zookeeper安装过程
9.初识HBase常用Shell命令

第三天

教学目标

1.具有熟练使用HBase Shell常用命令的能力
2.具有通过Help命令辅助使用HBase Shell命令的能力
3.具体查看HBase API文档并理解应用的能力
4.具有熟练掌握使用HBase API常用开发过程的能力
5.具有Java通过HBase API进行常用表操作的能力

知识内容：

1.初识HBase API的调用过程
2.掌握HBase Shell常用基本命令
3.掌握HBase Shell常用表管理命令
4..掌握HBase Shell常用表操作命令

第四天

教学目标
1.具有独立在相应HBase版本下查找Put与Delete相关API的能力
2.具有结合业务选择正确Put方法，完成编程任务的能力
3.具有独立在相应HBase版本下查找Get相关API的能力
4.具有结合业务选择正确Get方法，完成编程任务的能力
5.具有独立在相应HBase版本下查找Scan相关API的能力
6.具有结合业务选择正确Scan方法，完成编程任务的能力
7.具有独立在相应HBase版本下查找过滤器相关API的能力
8.具有结合业务选择正确过滤器方法，完成编程任务的能力

知识内容：

1.了解HBase基础API的内容及特点
2.理解HBase基础API开发流程
3.掌握HBase新、旧二个版本下Put与Delete
4.理解原子性操作概述
5.理解Get方法相关理论知识
6.掌握常规操作：单行get、Result类、get列表（ListCell、RawCell）、错误列表、获取数据方法
7.掌握多版本的写法
8.理解Scan方法相关理论知识
9.掌握常规操作：指定行、ResultScanner类、按RowKey范围取、多版本
10.掌握新、旧二种版本的写法
11.理解过滤器相关理论知识
12.掌握常规操作：行、列、列名、值、分页过滤器
13.掌握表设计相关理论知识
14.掌握表中列族的设计
15.掌握表中RowKey设计
16.理解翻页原理
17.回顾前面主要知识点串线

spark阶段教学目标:

1.熟练掌握scala编程
2.熟练掌握spark运行原理，rdd原理
3.熟练掌握spark 常见算子
4.熟练掌握spark sql进行离线计算
5.熟练掌握spark streaming进行实时计算

------------------------------spark阶段-scala基础语法部分-----------------------5天---------------------

第一天

教学目标：

1.掌握掌握Scala安装与环境配置，Scala基础语法
2.掌握Scala数据类型与基本操作符
3.掌握Scala变量
4.掌握Scala访问修饰符，Map与Tuple
5.掌握Scala运算符
6.掌握输入和输出
7.掌握scala数组与集合

知识内容：

1.掌握Scala安装与环境配置
2.掌握idea IntelJ开发工具开发scala的使用
3.函数式编程
4.scala方法和函数，Map与Tuple
5.scala数组和集合
6.scala编程练习（单机版WordCount）

第二天

教学目标：

1.熟练掌握scala控制语句
2.熟练掌握scala面向对象
3.熟练掌握scala 特质，模式匹配

知识内容：

1.条件语句IF...ELSE 的应用
2.循环语句之for循环的应用
3.循环语句之while循环的应用
4.循环语句之do...while循环的应用
5.面向对象,类的定义,继承
6.构造器与辅助构造器
7.实现特质Trait
8.模式匹配,按类型匹配
9.样例类case class
10.Option/Some/None
11.Scala单例对象与伴生对象

第三天

教学目标：

1.熟练掌握scala常用函数
2.熟练掌握定义函数的五种方式

知识内容：

1.回顾前面讲的scala基础
2.掌握map(),flatten(),flatmap,foreach和forall
3.掌握filter过滤,对集合进行分组partition,fold讲解
4.掌握zip,拉链,动作函数，求最大值，最小值,欧拉图函数（Euler Diagram函数）
5.scala科里化
6.Scala隐式转换
7.Scala正则表达式
8.了解Scala异常处理
9.掌握Scala的文件I/O操作
10.了解lazy，了解scala偏函数

第四天

教学目标：

1.了解Actor并发模式
2.掌握Actor并发编程的应用

知识内容：

1.Java中的并发编程
2.Scala中的并发编程
1.什么是Actor
2.ActorSystem的层次结构
3.ActorPath
4.获取Actor Reference
5.Actor和ActorSystem
6.示例说明,代码实现

第五天

教学目标：

1.掌握scala基础语法
2.掌握scala常用方法
3.掌握scala常见集合

知识内容：

1.复习前四天内容
2.scala练习

-------------------spark实时计算阶段 ----spark 部分------------8天-----------

第一天

教学目标：

1.了解Spark的组件和应用场景
2.能够部署Spark Standalone模式
3.能够使用Spark进行交互式开发
4.能够发布独立应用程序并使用spark-submit提交

知识内容：

1.什么是实时计算？实时计算应用场景
2.spark简介 spark core,spark sql,spark streaming,spark mllib
3.spark环境搭建
4.Spark和Hadoop、Storm,Flink的对比
5.用Scala语言编写Spark应用程序WordCount
6.用Java语言编写Spark应用程序WordCount

第二天

教学目标：

1、熟练掌握spark内部各个组件的含义
2、了解Master资源调度算法原理分析
3、了解Worker原理分析与源码分析
4、熟练掌握RDD弹性分布式数据集
5、理解窄依赖与宽依赖
6、掌握Spark Job执行原理分析、shuffle操作解析
7、掌握Spark on YARN的使用以及两种不同模式的区别

知识内容：

1.了解RDD的概念
2.掌握如何创建RDD
3.自定义分区
4.RDD的checkpoint机制
5.二次排序、自定义排序
6.spark运行的四种模式
7.回顾hadoop mr的wordcount
8.在intel j开发工具上开发基于spark版本的wordcount

第三天

教学目标：

1.掌握RDD的transerformation操作算子
2理解RDD的特性，Spark作业执行过程
3.掌握Spark图形化工具的查看

知识内容：

1.transoformation算子：(

1.map
2.filter（function）
3.flatMap（function）
4.mapPartitions（function）
5.mapPartitionsWithIndex（function）
6.sample（withReplacement， fraction， seed）
7.union（otherDataSet）
8.intersection（otherDataSet）
10.groupByKey([numTasks])
11.reduceByKey（function，[numTasks]）
12.aggregateByKey（zeroValue）（seqOp， combOp， [numTasks]）
13.sortByKey（[ascending], [numTasks]）
14.join（otherDataSet，[numTasks]）
15.cogroup（otherDataSet，[numTasks]）
16.cartesian（otherDataSet）
17.pipe（command，[envVars]）
18.coalesce（numPartitions）
19.repartition（numPartitions）
20.repartitionAndSortWithinPartitions（partitioner）

第四天

教学目标：

掌握RDD的行动action操作算子

知识内容：

action算子（

1.reduce（function）
2.collect（）
3.count（）
4.first（）
5.takeSample（withReplacement， num， [seed]）
6.take（n）
7.takeOrdered（n，[ordering]）
8.saveAsTextFile（path）
9.saveAsSequenceFile（path）（Java and Scala）
10.saveAsObjectFile（path）（Java and Scala）
11.countByKey（）
12.foreach（function）

）

第五天

教学目标：

1.熟练掌握spark sql
2.熟练掌握DataFrame
3.熟练掌握dataset
4.掌握熟悉rdd,dataframe,dataset三者之间的区别及联系
5.掌握DataFrame的操作
6.掌握不同数据源的加载方法
7.了解UDF的定义方法
8.了解RDD的持久化、累加器和广播变量

知识内容：

1.如何创建dataFrame
2.如何创建dataSet
3.RDD、DataFrame、Dataset的区别和各自的优势
4.DataFrame的使用
5.使用反射方式将RDD转换为DataFrame
6.使用编程方式将RDD转换为DataFrame
7.数据源之通用的load和save操作
8.Parquet数据源之使用编程方式加载数据
9.Parquet数据源之自动分区推断
10.Parquet数据源之合并元数据
11.JSON数据源复杂综合案例实战
12.Hive数据源复杂综合案例实战
13.JDBC数据源复杂综合案例实战
14.如何创建累加器，和广播变量。
15.UDF自定义函数实战
16.UDAF自定义聚合函数实战

第六天

教学目标：

1.了解Spark Streaming的特点
2.掌握流式处理的基本操作
3.理解状态操作和窗口操作的概念
4.掌握不同需求下Spark组件的选择
5.掌握Spark参数调优
6.掌握各组件之间的调用及thrift接口的使用
7.掌握spark streaming工作原理,spark streaming+kafka架构

知识内容：

1.Spark Streaming介绍、DStream介绍
2.StreamingContext详解
3.输入DStream和Receiver详解
4.基于HDFS的实时wordcount案例实战

5.spark Streaming窗口函数：
window(windowLength, slideInterval)

countByWindow(windowLength,slideInterval)

reduceByWindow(func, windowLength,slideInterval)

reduceByKeyAndWindow(func,windowLength, slideInterval, [numTasks])

reduceByKeyAndWindow(func, invFunc,windowLength, slideInterval, [numTasks])

countByValueAndWindow(windowLength,slideInterval, [numTasks])

第七天

教学目标：

1.掌握Dstream transofrmation类型操作函数

知识内容：

Transformation 含义
1.map(func)
2.flatMap(func)
3.filter(func)
4.repartition(numPartitions)
5.union(otherStream)
6.count()
7.reduce(func)
8.countByValue()
9.reduceByKey(func, [numTasks])
10.join(otherStream, [numTasks])
11.cogroup(otherStream, [numTasks])
12.transform(func)
13.updateStateByKey(func)

第八天

教学目标：

1.掌握Dstream Output Operation类型操作函数

知识内容：

Output Operation 含义
1.print() 打印到控制台
2.saveAsTextFiles(prefix, [suffix]) 保存流的内容为文本文件，文件名为”prefix-TIME_IN_MS[.suffix]”
3.saveAsObjectFiles(prefix, [suffix]) 保存流的内容为SequenceFile，文件名为 “prefix-TIME_IN_MS[.suffix]”
4.saveAsHadoopFiles(prefix, [suffix]) 保存流的内容为hadoop文件，文件名为”prefix-TIME_IN_MS[.suffix]”.
5.foreachRDD(func) 对Dstream里面的每个RDD执行func

-------------------spark实时计算阶段-----flume部分-----------1天----------------

第一天

教学目标：

1.理解实时分析的应用场景
2.具有结合业务选择正确Put方法，完成编程任务的能力
3.掌握Flume Agent内部原理
4.具有独立安装flume的能力
5.熟练使用常用的几种source的应用和配置
6.熟练使用常用的几种channle的应用和配置
7.掌握channle的事务性概念
8.熟练使用常用的几种sink的应用和配置
9.掌握sink的作用
10.熟练使用fan in和Fan out应用和配置
11..掌握多agent的配置

知识内容：

1.Flume安装，event介绍
2.Flume Agent内部原理
3.配置Flume Agent
4.source的生命周期
5.source的配置
6.常用的几种source的介绍以及应用
7.Flume拦截器
8.channle作用
9.channle事务性
10.channle的种类
11.channle配置
12.Channel选择器
13.sink作用
14.sink的生命周期
15.常用的几个sink介绍
16.Sink组
17.多source--单channle（Fan in flow）
18.单source--多channle（Fan out flow）
19.agent--agent

--------------spark实时计算阶段 ------kafka部分--------------1天---------

第一天

教学目标：

1.了解Kafka是什么?
2.掌握Kafka的核心概念
3.掌握Kafka的部署和使用
4.掌握Kafka的容错性测试方案
5.分布式消息队列Kafka应用实战
6.掌握Kafka API编程
7.掌握Flume整合Kafka的使用

知识内容：

1.了解数据的传递方式
2.消息中间件的优势及作用
3.常用的消息中间件
4.kafka的相关概念
5.kafka相关概念：broker、topic、生产者和消费者
6.kafka集群类型
7.kafka集群启动步骤
8.kafka分区机制（Partition）
9.kafka的副本数（replication）
10.Kafka生产者API
11.Kafka消费者API
12.flume与kafka整合
13.kafka source
14.Kafka Sink
15.Kafka Channel

--------------------spark 实时计算项目阶段--------------------14天----------------

第一天

教学目标：

1.掌握spark实时计算应用场景
2.掌握spark 实时计算常用算子
3.掌握spark运行原理
4.掌握spark job作业提交流程on yarn
5.掌握spark项目中的业务逻辑实现

知识内容：

spark某电商大型会话分析项目（1）

第二天

教学目标：
1.熟练掌握spark 自定义算子编程模式
2.对电商运营的运营流程有深入了解
3.对电商技术架构有深入了解
4.了解大数据实时计算场景有哪些

知识内容：

spark某电商大型会话分析项目（2）

第三天

spark某电商大型会话分析项目（3）

第四天

spark某电商大型会话分析项目（4）

第五天

spark某电商大型会话分析项目（5）

第六天

spark某电商大型会话分析项目（6）

第七天

教学目标：

1.开发spark电影推荐系统
2.掌握spark 推荐算法

知识内容：

spark某国际院线电影推荐系统（1）

第八天

spark某国际院线电影推荐系统（2）

第九天

spark某国际院线电影推荐系统（3）

第十天

spark某国际院线电影推荐系统（4）

第十一天

spark某国际院线电影推荐系统（5）

第十二天

教学目标：
1.掌握spark streaming开发实时计算项目

知识内容：
某大型视频网站流量分析项目（1）

第十三天

某大型视频网站流量分析项目（2）

第十四天

某大型视频网站流量分析项目（3）

本月教学目标：

1.掌握python基础
2.掌握python爬虫

---------------------python阶段--------------------15天------------

第一天

教学目标：

1.理解学习Python语言的意义
2.掌握Python开发环境的搭建
3.掌握Python基本语法的编写规则

知识内容：

1.Python简介、Python开发环境搭建
2.Python数据类型和运算符，局部变量与全局变量
3.Python条件语句

第二天

教学目标：

1.熟练循环的应用
2.掌握字符串的使用方法
3.掌握列表定义及使用

知识内容：

1.Python for循环 while循环
2.break与contine
3.字符串的使用、
4.元组的定义及使用
5.python字典
6.python容器类型

第三天

教学目标：

1.理解Python中各种集合的使用区别
2.掌握函数参数的传递规则
3.理解面向对象的思想

知识内容：

1.Python中列表、元组、字典
2.函数的定义及使用
3.lambda匿名函数及应用
4.变量的作用域
5.参数的传递、类的定义、对象创建
6.面向对象的封装、继承、多态
7.类属性，类方法，静态方法
8.单例模式，异常，模块与包
9.文件操作，文本编码，内建函数eval

第四天

教学目标：

1.理解模块的概念及用法
2.掌握IO模块和日历模块的使用
3.掌握异常处理方式

知识内容：

1.模块概念；
2.模块用法；
3.导入模块；
4.IO模块的使用；
5.日历模块的使用
6.异常的概念及处理
7.理解正则表达式的概念及应用场景
8.掌握正则表达式的模式匹配规则
9.编写模式匹配的程序

第五天

1.熟悉python正则表达式

教学目标：

知识内容：

1.正则表达式概念及应用场景
2.search和match方法
3.正则表达式的修饰符
4.正则表达式的模式
5.正则表达式的应用

第六天

开发飞机大战项目(1)

第七天

开发飞机大战项目(2)

第八天

教学目标：

1.掌握爬虫原理
2.掌握python beautifulsoap如何解析html标签
3能够使用python开发爬虫

知识内容：

开发爬虫抓取某网站信息进行数据清洗（1）

第九天

开发爬虫抓取某网站信息进行数据清洗（2）

第十天

开发爬虫抓取某网站信息进行数据清洗（3）

第十一天

教学目标

1.掌握python scrappy爬取网页信息开发爬虫

知识内容：

1.什么是scrappy

2.scrappy的组件有哪些及其含义

3.scrapy pipline,item,shell

4.使用scrappy爬取网页信息

第十二天

python爬取某商城评价信息存入mysql（1）

第十三天

python爬取某商城评价信息存入mysql（2）

第十四天
python爬取某商城评价信息存入mysql（3）

第十五天

python爬取某商城评价信息存入mysql（4）

2019年最新大数据大纲 ---大数据离线实时部分课程内容大纲

猜你喜欢