安徽合肥大数据技术培训教学课程大纲

雷顿学院大数据课程大纲（待完善）

大数据培训，选择雷顿学院 https://leidun.ke.qq.com/?tuin=12bc066a

linux基础教程

1. 初识Linux

1. Linux的历史

2. Linux的特点和企业中的地位

3. Linux的发行版本

2. Linux环境配置

1. 安装与使用VirtualBox虚拟机

2. 磁盘分区

3. 安装Linux前的规划

4. 安装操作系统Ubuntu

5. 系统安装后的基本配置

3. Linux的使用

2. SSH远程登录

3. 常用Linux命令行命令使用(一)

4. 常用Linux命令行命令使用(二)

5. 使用vim

6. 文件目录管理

7. 软件包管理

8. 磁盘管理

9. 用户与用户组管理

10. 进程管理

11. 系统管理

12. 网络工具

15. 学习Zsh

4. 项目练习

1. Python环境搭建

2. 安装MySQL数据库和Python驱动

3. Python应用服务器

4. Web服务器Nginx

5. java安装

mysql课程

hadoop课程

java 安装

hadoop下载解压

hadoop相关配置

hadoop启动

安装过程中常见错误

map reduce wordcount程序编写

hdfs命令

hdfs 构架设计

Hdfs 权限指南

hdfs命令

Fs shell 使用

Distcp使用

Map redece教程

Hadoop streaming讲解

Hive课程

第1章：Hive基本架构及环境部署

1.MapReduce分析与SQL分析对比

2.Hive的介绍及其发展

3.Hive的安装部署及启动

4.Hive的基本架构讲解

5.安装MySQL作为元数据库存储

6.配置Hive使用MySQL作为元数据库存储

7.Hive中基本命令的使用

8.Hive中常用的属性配置

9.Hive中常用的交互式命令

10Hive中数据库的管理与使用

11.Hive中表的管理与使用

12.Hive中外部表的使用

第2章：Hive 常用DML、UDF及连接方式

13.Hive中分区表的介绍

14.Hive中分区表的创建及使用

15.Hive中数据导入的6种方式及其应用场景

16.Hive中数据导出的4种方式及表的导入导出

17.Hive中HQL的基本语法（一）

18.Hive中HQL的基本语法（二）

19.Hive中order by、sort by、distribute by与cluster by的使用

20.Hive中分析函数与窗口函数

21.Hive中UDF的介绍

22.Hive中使用自定义UDF实现日期格式转换

23. HiveServer2的介绍及三种连接方式

24.Hive元数据、fetch task和严格模式的介绍

Python课程

第一章 python基础

python简介

环境搭建

中文编码

基础语法

变量类型和运算符

条件语句和循环语句

While 和for语句

循环嵌套

Break continue pass语句

字符串

列表元祖和字典

日期和时间

函数

模块

文件操作

异常处理

第二章 python高级

面向对象

正则表达式

cgi网页编程

链接使用mysql

多线程与多进程

json和xml

python爬虫

第三章 flask 教程

…..

Spark课程

第1章 Spark的设计与运行原理

1.1 Spark简介

1.2 Spark运行架构

1.3 RDD的设计与运行原理

1.4 Spark的部署模式

第2章 Spark的安装与使用

2.1 Spark的安装和使用

2.2 第一个Spark应用程序：WordCount

2.3 使用开发工具Visual Studio Code 编写Spark应用程序

2.4 Spark集群环境搭建

2.5 在集群上运行Spark应用程序

第3章 Spark编程基础

3.1 Spark入门：RDD编程

3.2 Spark入门：键值对RDD

3.3 Spark入门：共享变量

3.4 数据读写

3.4.1 Spark入门：文件数据读写

3.4.2 读写HBase数据

第四章

4.1 Spark SQL简介

4.2 DataFrame与RDD的区别

4.3 DataFrame的创建

4.4 从RDD转换得到DataFrame

[第4.5节读取和保存数据]

4.5.1 读写Parquet(DataFrame)

4.5.2 通过JDBC连接数据库(DataFrame)

4.5.3 连接Hive读写数据

第5章 Spark Streaming

5.1 流计算简介

5.2 Spark Streaming简介

第5.3节 DStream操作

5.3.1 DStream操作概述

第5.3.2节输入源

第5.3.2.1节基本输入源

5.3.2.1.1 文件流

5.3.2.1.2 套接字流

5.3.2.1.3 RDD队列流

第5.3.2.2节高级数据源

5.3.2.2.1 Apache Kafka

5.3.2.2.2 Apache Flume

5.3.3 转换操作

5.3.4 输出操作

第6章 Spark MLlib

6.1 Spark MLlib简介

6.2 机器学习工作流

6.2.1 机器学习工作流(ML Pipelines)

6.2.2 构建一个机器学习工作流

6.3 特征抽取、转化和选择

6.3.1 特征抽取：TF-IDF

6.3.2 特征抽取：Word2Vec

6.3.3 特征抽取：CountVectorizer

6.3.4 特征变换：标签和索引的转化

6.3.5 特征选取：卡方选择器

6.4 分类与回归

6.4.1 逻辑斯蒂回归分类器

6.4.2 决策树分类器

6.5 聚类算法

6.5.1 KMeans聚类算法

6.5.2 高斯混合模型(GMM)聚类算法

6.6 推荐算法

6.6.1 协同过滤算法

6.7 机器学习参数调优

6.7.1 模型选择和超参数调整

安徽合肥大数据技术培训教学课程大纲

猜你喜欢