Spark离线计算优化——增量小数据集更新全量大数据集 - 代码天地

Spark离线计算优化——增量小数据集更新全量大数据集

其他 2018-11-01 11:31:38 阅读次数: 0

版权声明：本文为博主原创文章，转载请注明原博客地址。 https://blog.csdn.net/u012210441/article/details/80599345

有两个k-v格式的RDD需要union之后再进行reduceByKey操作（如：要将每日增量几十万的数据更新到全量几亿的数据）

优化方案：先将两个RDD公共部分提取出来，然后将公共部分先union再进行reduceByKey，最后将结果和前面没有交集的RDD相加（union）

具体做法：将较小的RDD1的key放入set并广播broadcast，然后将大的RDD2过滤filter出含该key较小RDD21和不含该key较大RDD22，再将RDD1与RDD21进行union-reduceByKey操作（增量数据更新全量数据），结果再union上RDD22。union和reduceByKey的操作的时候注意要reparation。

方案的思路：拿增量数据更新全量数据时，全量数据是不会每条记录都会被更新，只需要拿出需要更新的数据进行更新操作即可。两个大小差异较大的RDD进行union操作会进行大量shuffle，处理速度会很慢，filter之后两个较小的并且大小相似的RDD进行union就快的多（还是需要reparation，保证相同的合理的分区数）；大的RDD的reducebykey操作也会很慢（因为存在大量shuffle）。

猜你喜欢

转载自blog.csdn.net/u012210441/article/details/80599345

Spark离线计算优化——增量小数据集更新全量大数据集

大数据离线计算

spark数据集操作

Spark RDD数据集

GeoGeo大数据集

优化大数据量的KML数据集

矢量大数据

Others-大数据平台Lambda架构浅析（全量计算+增量计算）

分子优化数据集

大数据仓库－增量更新

Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

大数据-Spark性能优化

大数据随笔集

5.大数据集

Mnist本地离线数据集导入

mnist离线数据集导入pycharm

更新数据集和图形

遥感影像数据集更新

Spark SQL数据帧与数据集

推荐系统（五）：离线推荐数据缓存、离线数据缓存之离线召回集、离线数据缓存之离线特征

用来计算数据量大的类&能精确控制小数的类----BigDecimal

《Spark大数据处理：技术、应用与性能优化(全)》PDF版

Spark如何读取一些大数据集到本地机器上

了解Spark SQL，DataFrame和数据集

Spark系列之弹性数据集-RDD

怎么为小数据集划分训练集和测试集

计算机视觉数据集介绍：KITTI数据集

【机器学习笔记day08】2.1. Scikit-learn数据集+sklearn.datasets+ 获取小数据集+ 获取大数据集 +获取本地生成数据

[Spark技术]-0022-大数据视频教程-Spark Livy入门到精通（20集）高级-201811

大数据之Spark性能优化

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)