本文参考
在阅读了《Spark快速大数据分析》动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api详细的案例,而且现在spark的最新版本已经上升到了2.4.5,动物书中的spark版本还停留在1.2.0版本,所以就有了这篇文章,在最新的2.4.5版本下测试常用的api
由于spark的惰性计算特性,RDD只有在第一次行动操作中被用到时才会真正进行计算,因此我打算将文章内容分为"转化操作API"和"行动操作API"两部分,同时因为pair RDD(RDD中的元素是键值对)的部分api较为特殊,所以我打算单独再写一篇文章
本文仅介绍转化操作API,前5个api是针对一个RDD的转化操作,后续的api是针对两个RDD的转化操作
环境
idea + spark 2.4.5 + scala 2.11.12
map
目的:将函数应用于RDD中的每个元素,将返回值构成新的RDD
1 val testList = List(1, 2, 3, 3) 2 val testRdd = sc.parallelize(testList) 3 testRdd.map(ele => ele * ele).foreach(ele => print(s"$ele "))
val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.map(ele => ele * ele).foreach(ele => print(s"$ele "))