下载地址:https://u18103887.ctfile.com/fs/18103887-307770309
Databricks Spark 知识库.pdf
- Introduction
- 最佳实践
i. 避免使用 GroupByKey
ii. 不要将大型 RDD 的所有元素拷贝到请求驱动者 - 常规故障处理
i. Job aborted due to stage failure: Task not serializable
ii. 缺失依赖
iii. 执行 start-all.sh 错误 - Connection refused
iv. Spark 组件之间的网络连接问题 - 性能 & 优化
i. 一个 RDD 有多少个分区
ii. 数据本地性 - Spark Streaming
i. ERROR OneForOneStrategy
最佳实践
避免使用 GroupByKey
不要将大型 RDD 的所有元素拷贝到请求驱动者
常规故障处理
Job aborted due to stage failure: Task not serializable
缺失依赖
执行 start-all.sh 错误 - Connection refused
Spark 组件之间的网络连接问题
性能 & 优化
一个 RDD 有多少个分区
数据本地性
Spark Streaming
ERROR OneForOneStrategy