版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jancywen/article/details/87996005
rdd:弹性分布数据集
创建
1.sc.parallelize(...)
2.引用文件 sc.textFile(...)
转换
.map(...)
.filter(...)
.flatMap(...)
.distinct(...) 去重
.sample(...) 随机样本
.leftOuterJoin(...)
.repartition(...) 分区
.take()
.collect(...) 将rdd的元素返回给驱动程序
.reduce(...)
.reduceByKey(...)
.count(...)
.saveAsTextFile(...)
.foreach(...)