RDD常用转换操作和行动操作 - 代码天地

RDD常用转换操作和行动操作

其他 2020-03-01 22:46:01 阅读次数: 0

RDD创建

1、从文件系统中加载数据创建RDD

val lines: RDD[String] = sc.textFile("G:/person.txt")

2、通过并行集合（数组）创建RDD

可以调用SparkContext的parallelize方法，从一个已经存在的集合（数组）上创建RDD

    val lines: RDD[String] = sc.parallelize(Array("hello java","hello spark","hello scala"))

常用的RDD转换操作API

filter(func)：筛选出满足函数func的元素，并返回一个新的数据集。

map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集。

flatMap(func)：与map相似，但每个输入元素都可以映射到0或多个映射结果。

groupByKey()：应用于（k,v）键值对的数据集时，返回一个新的（k,Iterable）形式数据集，例如有三个hello（hello,(1,1,1)）

reduceByKey(func)：应用于（k,v）键值对的数据集时，返回一个新的（k,v）形式数据集，其中每个值是将每个key传递到函数 func中进行聚合后的结果。

常用RDD的行动操作API

count()：返回数据集中的元素个数。

collect()：以数组的形式返回数据集中的所有元素。

first()：返回数据集中第一个元素。

take(n)：以数组的形式返回数据集中的前n个元素。

reduce(func)：通过函数func(输入两个参数并返回一个值)聚合数据集中的元素。

foreach(func)：将数据集中的每个元素传递到函数func中运行。

蔡培育的小弟

发布了85 篇原创文章 · 获赞 3 · 访问量 2537

私信关注

猜你喜欢

转载自blog.csdn.net/Romantic_sir/article/details/103284881

RDD常用转换操作和行动操作

常见转换操作和行动操作

spark中常见的RDD的转化操作和行动操作算子都有哪些？实用~

spark——详解rdd常用的转化和行动操作

Spark核心编程-RDD行动操作

RDD的转换操作（续）

RDD操作创建RDD，转换操作

Spark的RDD操作和描述——1

Spark:RDD操作和持久化

RDD常用操作（一）

RDD常用操作（二）

spark 常见的转化操作和行动操作

Spark Dataframe转换/行动操作

Git常用操作和命令

docker常用操作和命令

Linux的常用操作和技巧！

mysql常用操作和语法

Learning Spark——RDD常用操作

Spark之RDD常用操作

Spark算子：RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset

Spark算子：RDD行动Action操作(2)–take、top、takeOrdered

熟悉常用的 Linux 操作和 Hadoop 操作

redis常用操作和操作键值

5.RDD的Action操作和持久化persist()

Spark核心编程-RDD转换操作

Spark编程--键值对RDD转换操作

RDD操作

熟悉常用的HBase操作和理解MapReduce

常用的命令操作和快捷键

JPA的常用操作和配置总结

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)