Spark系列:Spark系列目录索引
- 背景
- 面向的读者
- 系列目录索引
- [Spark基础1:Spark2基本介绍](https://www.baidu.com/)
- [Spark基础2:Spark基本概念](https://www.baidu.com/)
- [Spark实战1:parquet文件的动态生成](https://www.baidu.com/)
- [Spark实战2:实现impala的分桶查询](https://blog.csdn.net/bm8836900/article/details/89883808)
- [Spark实战3:使用的设计模式分享](https://www.baidu.com/)
- [Spark实战6:Spark sql 临时表加载的改进](https://www.baidu.com/)
- [Spark实战5:结果数据oracle的输出改进](https://www.baidu.com/)
- [Spark实战6:Spark Submit时间周期的改进](https://www.baidu.com/)
背景
在本系列中,将和大家分享或介绍如下一些知识点:
- spark2的一些基本知识点。比如:spark2中的DataSet,Dataframe,算子,shuffle等等。
- 在使用spark中出现的一些误区。
- spark性能调优:代码级调优、submit配置调优、gc调优
- spark实战:本部分主要根据博主接手的一个spark项目在面对各个问题是的一个总结。
面向的读者
- 本系列将假定读者已经对编程语言scala有一定的了解和实际使用经验。
- 本系列将假定读者已经对spark1或者spark2有了一定的实际使用经验。
- 本系列将假定读者已经对hadoop生态圈中的一些组件有一定的使用使用。比如:HDFS,yarn,impala,lzo,parquet等等。