Spark RDD编程(2) - 代码天地

Spark RDD编程(2)

其他 2020-04-13 22:33:44 阅读次数: 0

1. 创建RDD

并行集合进行创建，或者读取外部文件进行创建

rdd = sc.textFile('/data/word.txt')

nums = [1,2,3,4,5]
rdd = sc.parallelize(nums)

2. RDD操作

转换：

操作	含义
filter(func)	筛选满足函数的元素
map(func)
flatMap(func)
groupByKey(func)
reduceByKey(func)

行动操作：
真正触发计算。

操作	含义
count()	计数
collect()	以数组的形式返回数据集的所有元素
first()	返回第一个元素
take(n)	以数组形式返回前n个元素
reduce(n)	通过func集中的元素
foreach(func)	每个元素传递到func中运行

统计文档单行的单词最多数量。

words = sc.textFile('/data/word.txt')
words.map(lambda x:len(x.split(" "))).reduce(lambda a,b:(a > b and a or b))

3. 持久性

由于spark的惰性机制，导致每次的行动，都得从头到尾运行，如果碰到多次的操作，效率很低。一个方法是把上一次行动保存到内存。

list = ["Hadoop", "Spark", "Hive"]
rdd = sc.parallelize(list)
rdd.cache()
print(rdd.count())
print(",".join(rdd.collect()))

运行结果：

3
'Hadoop,Spark,Hive'

参考：

Spark2.1.0+入门：RDD编程(Python版);

rosefunR

发布了514 篇原创文章 · 获赞 152 · 访问量 77万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/rosefun96/article/details/105497150

Spark RDD编程(2)

Spark系列2 - Spark RDD编程

Spark Core入门2【RDD的实质与RDD编程API】

Spark之【RDD编程】详细讲解(No2)——《RDD的转换》

Spark学习笔记（1、Spark概览 2、RDD编程）

Spark（三）Spark RDD编程

Spark基础 | RDD编程

SPARK RDD编程指南

Spark基础-RDD编程

Spark四 RDD编程

（二）Spark RDD编程

Spark的RDD编程指南

spark RDD编程

Spark-RDD编程

RDD编程--与Spark的链接

spark RDD官网RDD编程指南

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））

Spark Core:RDD编程Action

Spark Core:RDD编程Transformation

3.10 Spark RDD编程案例

3.9 Spark 键值对RDD编程

spark(2.2) - spark-shell RDD编程

Spark（2）——小用RDD

[Spark RDD_add_2] Spark RDD 分区补充内容

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

Spark编程基础_RDD初级编程

spark编程基本（二）-- RDD编程

Spark RDD

[Spark]-RDD

Spark | RDD

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)