1、sparkStreaming批次你们是设置多少。10s的话,假设我10s的数据,生成几个rdd,这个rdd有几个分区。
2、kafka topic的patition你们设置多少。
3、sparkStreaming开多少线程拉数据。正常来说并不是所有线程都要去拉数据的。
4、reidis在代码中是怎么连接数据库的,连接池连接吗。真实意图应该是说你项目中有没有用foreach patition进行数据库的连接。
5、foreach算子和foreach patition的区别。
6、数据倾斜有遇到吗,双重key聚合,是给每一个key都加随机前缀吗?
7、map和flatmap的区别,是一对多还是一对一。flatmap的是1到多还是0到多开始。
8、groupbykey和reducebykey的区别,groupbykey和reducebykey的执行结果都一样吗。
9、a left join b on a.id=b.id and b.age=30; 这个最后查询的记录数是怎么计算的。