雷顿学院大数据课程大纲(待完善)
大数据培训,选择 雷顿学院 https://leidun.ke.qq.com/?tuin=12bc066a
linux基础教程
1. 初识Linux
1. Linux的历史
2. Linux的特点和企业中的地位
3. Linux的发行版本
2. Linux环境配置
1. 安装与使用VirtualBox虚拟机
2. 磁盘分区
3. 安装Linux前的规划
4. 安装操作系统Ubuntu
5. 系统安装后的基本配置
3. Linux的使用
2. SSH远程登录
3. 常用Linux命令行命令使用(一)
4. 常用Linux命令行命令使用(二)
5. 使用vim
6. 文件目录管理
7. 软件包管理
8. 磁盘管理
9. 用户与用户组管理
10. 进程管理
11. 系统管理
12. 网络工具
15. 学习Zsh
4. 项目练习
1. Python环境搭建
2. 安装MySQL数据库和Python驱动
3. Python应用服务器
4. Web服务器Nginx
5. java安装
mysql课程
hadoop课程
java 安装
hadoop下载解压
hadoop相关配置
hadoop启动
安装过程中常见错误
map reduce wordcount程序编写
hdfs命令
hdfs 构架设计
Hdfs 权限指南
hdfs命令
Fs shell 使用
Distcp使用
Map redece教程
Hadoop streaming讲解
Hive课程
第1章:Hive基本架构及环境部署
1.MapReduce分析与SQL分析对比
2.Hive的介绍及其发展
3.Hive的安装部署及启动
4.Hive的基本架构讲解
5.安装MySQL作为元数据库存储
6.配置Hive使用MySQL作为元数据库存储
7.Hive中基本命令的使用
8.Hive中常用的属性配置
9.Hive中常用的交互式命令
10Hive中数据库的管理与使用
11.Hive中表的管理与使用
12.Hive中外部表的使用
第2章:Hive 常用DML、UDF及连接方式
13.Hive中分区表的介绍
14.Hive中分区表的创建及使用
15.Hive中数据导入的6种方式及其应用场景
16.Hive中数据导出的4种方式及表的导入导出
17.Hive中HQL的基本语法(一)
18.Hive中HQL的基本语法(二)
19.Hive中order by、sort by、distribute by与cluster by的使用
20.Hive中分析函数与窗口函数
21.Hive中UDF的介绍
22.Hive中使用自定义UDF实现日期格式转换
23. HiveServer2的介绍及三种连接方式
24.Hive元数据、fetch task和严格模式的介绍
Python课程
第一章 python基础
python简介
环境搭建
中文编码
基础语法
变量类型和运算符
条件语句和循环语句
While 和for语句
循环嵌套
Break continue pass语句
字符串
列表 元祖和字典
日期和时间
函数
模块
文件操作
异常处理
第二章 python高级
面向对象
正则表达式
cgi网页编程
链接使用mysql
多线程与多进程
json和xml
python爬虫
第三章 flask 教程
…..
Spark课程
第1章 Spark的设计与运行原理
1.1 Spark简介
1.2 Spark运行架构
1.3 RDD的设计与运行原理
1.4 Spark的部署模式
第2章 Spark的安装与使用
2.1 Spark的安装和使用
2.2 第一个Spark应用程序:WordCount
2.3 使用开发工具Visual Studio Code 编写Spark应用程序
2.4 Spark集群环境搭建
2.5 在集群上运行Spark应用程序
第3章 Spark编程基础
3.1 Spark入门:RDD编程
3.2 Spark入门:键值对RDD
3.3 Spark入门:共享变量
3.4 数据读写
3.4.1 Spark入门:文件数据读写
3.4.2 读写HBase数据
第四章
4.1 Spark SQL简介
4.2 DataFrame与RDD的区别
4.3 DataFrame的创建
4.4 从RDD转换得到DataFrame
[第4.5节 读取和保存数据]
4.5.1 读写Parquet(DataFrame)
4.5.2 通过JDBC连接数据库(DataFrame)
4.5.3 连接Hive读写数据
第5章 Spark Streaming
5.1 流计算简介
5.2 Spark Streaming简介
第5.3节 DStream操作
5.3.1 DStream操作概述
第5.3.2节 输入源
第5.3.2.1节 基本输入源
5.3.2.1.1 文件流
5.3.2.1.2 套接字流
5.3.2.1.3 RDD队列流
第5.3.2.2节 高级数据源
5.3.2.2.1 Apache Kafka
5.3.2.2.2 Apache Flume
5.3.3 转换操作
5.3.4 输出操作
第6章 Spark MLlib
6.1 Spark MLlib简介
6.2 机器学习工作流
6.2.1 机器学习工作流(ML Pipelines)
6.2.2 构建一个机器学习工作流
6.3 特征抽取、转化和选择
6.3.1 特征抽取:TF-IDF
6.3.2 特征抽取:Word2Vec
6.3.3 特征抽取:CountVectorizer
6.3.4 特征变换:标签和索引的转化
6.3.5 特征选取:卡方选择器
6.4 分类与回归
6.4.1 逻辑斯蒂回归分类器
6.4.2 决策树分类器
6.5 聚类算法
6.5.1 KMeans聚类算法
6.5.2 高斯混合模型(GMM)聚类算法
6.6 推荐算法
6.6.1 协同过滤算法
6.7 机器学习参数调优
6.7.1 模型选择和超参数调整