开天创世大数据面试题

开天创世

开天创世大数据面试题

(1)画图讲解spark工作流程,以及在集群上和各个角色的对应关系

(2)spark哪些算子操作涉及到shuffle

(3)spark性能优化主要有哪些手段

(4)map-reduce程序运行的时候会有什么比较常见的问题

(5)hadoop和spark的shuffle过程,你怎么在编程的时候注意避免一些性能问题

(6)hadoop的TextInputFormat作用是什么,如何自定义实现

(7)有哪些数据倾斜,怎么解决

(8)有订单数据表server_id(服ID)、role_id(角色ID)/money(充值金额)统计每个服中累计充值金额排名前3的角色ID与总充值金额分别使用HIVE SQL、Spark算子实现

大数据培训

猜你喜欢

转载自blog.csdn.net/msjhw_com/article/details/109065599