Spark SQL中的Catalyst 的工作机制

答：不管是SQL、Hive SQL还是DataFrame、Dataset触发Action Job的时候，都会经过解析变成unresolved的逻辑执行计划，然后利用元数据信息对unresolved的逻辑执行计算进行分析，得到逻辑执行计划，然后对逻辑执行计划进行优化，得到优化后的逻辑执行计划，然后利用优化后的逻辑执行计划生成多个物理执行计划，利用cost model分别对所有的物理执行计划进行测试看看哪个性能更好，然后选出性能最好的物理执行计划，根据选择好的物理执行计划进行代码生成，最终生成RDD链，开始执行并返回结果

RDD是：不变的、分布式的数据集、在集群中是分区的、懒计算的以及是类型安全的

RDD是Spark的基础，Dataset和DataFrame最终还是会调用RDD的API来实现

DataFrame就是Row类型的Dataset，和RDD一样是不变的、分布式的数据集、在集群中是分区的、懒计算的，但不是类型安全的，没有提供类似于RDD中的函数式编程的接口，但是DataFrame的性能比RDD强很多

Dataset就是强类型、支持函数式变成的DataFrame，说白了Dataset就是RDD + DataFrame

这个是因为Spark团队利用DataFrame或者Dataset中的Schema信息对DataFrame或者Dataset中的API做了很大的性能优化，如下：

1、在缓存DataFrame或者Dataset的时候，可以对基本类型的列按列进行存储

2、钨丝计划：第一、引入了一个显示的内存管理器让Spark操作可以直接针对二进制数据而不是Java对象，这样就可以减少Java对象的开销和无效率的GC；第二、设计了更加缓存友好的算法和数据结构，从而让Spark应用程序可以花费更少的时间等待CPU从内存中读取数据，也给有用的工作提供了更多的计算时间；第三、Code generation去掉了原始数据类型的封装和解封，更重要的是避免了昂贵的多态函数调度

3、Catalyst Optimizer，因为Spark的RDD是懒加载的，所在在触发Job之前可以对RDD的链做很多的优化，而Catalyst Optimizer就是给这个RDD链方便的加上优化的手段

Spark SQL中的Catalyst 的工作机制

猜你喜欢