第3章 RDD编程
3.1 RDD基础
1、Spark中的RDD是一个不可变的分布式对象集合。
2、两种方式创建RDD:读取一个外部数据集、在驱动器程序里分发驱动器程序中的对象集合。
3、RDD支持两种类型的操作
(1)转化操作:由一个RDD生成一个新的RDD。
(2)行动操作:对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中。
Tips:区别两个操作的方法是观察两者的返回值类型,转化操作返回的是RDD,而行动操作返回的是其他数据类型。
1、Spark中的RDD是一个不可变的分布式对象集合。
2、两种方式创建RDD:读取一个外部数据集、在驱动器程序里分发驱动器程序中的对象集合。
3、RDD支持两种类型的操作
(1)转化操作:由一个RDD生成一个新的RDD。
(2)行动操作:对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中。
Tips:区别两个操作的方法是观察两者的返回值类型,转化操作返回的是RDD,而行动操作返回的是其他数据类型。