开天创世
(1)画图讲解spark工作流程,以及在集群上和各个角色的对应关系
(2)spark哪些算子操作涉及到shuffle
(3)spark性能优化主要有哪些手段
(4)map-reduce程序运行的时候会有什么比较常见的问题
(5)hadoop和spark的shuffle过程,你怎么在编程的时候注意避免一些性能问题
(6)hadoop的TextInputFormat作用是什么,如何自定义实现
(7)有哪些数据倾斜,怎么解决
(8)有订单数据表server_id(服ID)、role_id(角色ID)/money(充值金额)统计每个服中累计充值金额排名前3的角色ID与总充值金额分别使用HIVE SQL、Spark算子实现