1.什么是RDD
RDD(resilient distributed dataset)弹性分布式数据集,每一个RDD都被分为多个分区,分布在集群的不同节点上。
2.RDD的操作
Spark对于数据的操作都是基于对RDD的操作,其中包括一些创建RDD操作、转化RDD操作(将一个RDD转化为一个新的RDD)以及调用RDD的行动操作。我们可以使用Java、Scala、Python语言来操作它。
3.基本步骤
a.从外部数据创建出输入RDD
b.进行一些转化操作,例如filter
c.持久化RDD,使用persist()方法
d.执行一些行动操作,进行计算,得到想要的数据结果