背景: YARN资源使用情况
如图从内存使用占比、Pending数量 可以看到 YARN的资源使用情况是很紧张的。
优化方向
- 1、JOB的执行引擎 MR -> Spark Sql
- 2、监控YARN资源在队列和整体使用情况:
- A、将不同类型的JOB 调整到不同队列中。
- B、调整队列的资源分配比例,抢占比例。
- C、调整JOB的开始执行时间,错开YARN资源使用高峰执行。
- 3、JOB优化:通过Dr-Elephant大象医生,找到每日输入量TOP、倾斜任务、执行时间长任务
- 4、数据同步:通过binlog等或埋点数据处理,小时同步到仓库中,分散凌晨同步压力。
- 5、仓库ETL优化:通过表和字段的血缘分析,对于表和字段的JOIN、SELECT、GROUP BY次数较多,查看仓库ETL是否存在重复建设的问题