第6章 Spark编程进阶 - 代码天地

第6章 Spark编程进阶

编程语言 2018-09-27 17:25:11 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u010819416/article/details/82825293

6.1 简介
共享变量
1）累加器（accumulator）：
用来对信息进行聚合
2）广播变量（broadcast variable）:
用来高效分发较大的对象

基于分区处理、外部程序接口调用、汇总统计

6.2 累加器
提供了将工作节点中的值聚合到驱动器程序中的简单语法。常见用途是在调试时对作业执行过程中的事件进行计数。
累加器用法：

创建累加器，SparkContext.accumulator(initialValue),返回Accumulator[T]对象
Spark闭包里的执行器使用累加器的+=方法
调用累加器的value属性来访问累加器的值

6.2.1 累加器与容错性
在行动操作中，对累加器的修改应用一次；
转化操作中，不能保证。

6.2.2 自定义累加器
扩展AccumulatorParam

6.3 广播变量
让程序高效地向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用
使用广播变量：
1）调用SparkContext.broadcast创建出一个Broadcast[T]对象
2）通过value访问值
3）变量只会被发到各个节点一次，应作为只读值处理

6.4 基于分区进行操作
Spark提供基于分区的map和foreach,让你的部分代码只对RDD的每个分区进行一次，这样可以帮助降低这些操作的代价

6.5 与外部程序间的管道
可以将数据通过管道传给用其他语言编写的程序，比如R语言脚本。

6.6 数值RDD的操作
数值RDD调用stats()时，返回StatsCounter对象。StatsCounter上有很多可用的方法。

6.7 总结

猜你喜欢

转载自blog.csdn.net/u010819416/article/details/82825293

第6章 Spark编程进阶

第6章元类编程

第 6 章（2）面向对象进阶

第14章，Shell脚本编程进阶

【Spark基础编程】第8章 Spark MLlib

java并发编程实战-第6章-任务执行

Windows核心编程：第6章线程基础

java编程思想第 6 章访问权限控制

《Java编程思想》第6章访问权限控制

《Java编程思想》第6章练习题

敏捷开发第6章一次编程实践

第6章字典《python编程——从入门到实践》

20191105 《Spring5高级编程》笔记-第6章

【WebGL】《WebGL编程指南》读书笔记——第6章

《JAVA编程思想》学习笔记：第6章（访问权限）

第 6 章面向对象编程（基础部分）

并发编程之美（第6章—1）

[Python编程从入门到实战] 第6章字典

并发编程之美（第6章—2）

TCP/IP网络编程第4~6章复习总结

Java编程思想—第6章访问权限控制

第6章应用编程-课后作业

Python编程：从入门到实践------第6章：字典

《Java 编程的逻辑》笔记——第6章异常

java编程思想——第6章访问权限控制

python快速编程入门 • 第6章函数

C Primer Plus 第6版第6章编程练习

Spark（六）Spark编程进阶

《C Primer Plus》第6版编程练习第十二章第八题

《C Primer Plus》第6版编程练习第十二章第七题

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)