Spark学习摘记 —— Spark常用转化操作API归纳

本文参考

在阅读了《Spark快速大数据分析》动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api详细的案例,而且现在spark的最新版本已经上升到了2.4.5,动物书中的spark版本还停留在1.2.0版本,所以就有了这篇文章,在最新的2.4.5版本下测试常用的api

由于spark的惰性计算特性,RDD只有在第一次行动操作中被用到时才会真正进行计算,因此我打算将文章内容分为"转化操作API"和"行动操作API"两部分,同时因为pair RDD(RDD中的元素是键值对)的部分api较为特殊,所以我打算单独再写一篇文章

本文仅介绍转化操作API,前5个api是针对一个RDD的转化操作,后续的api是针对两个RDD的转化操作

环境

idea + spark 2.4.5 + scala 2.11.12

map

目的:将函数应用于RDD中的每个元素,将返回值构成新的RDD

 

1 val testList = List(1, 2, 3, 3)
2 val testRdd = sc.parallelize(testList)
3 testRdd.map(ele => ele * ele).foreach(ele => print(s"$ele "))

 

 

val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.map(ele => ele * ele).foreach(ele => print(s"$ele "))

猜你喜欢

转载自www.cnblogs.com/kuluo/p/12544734.html