spark: sample 数据采样 - 代码天地

spark: sample 数据采样

其他 2019-02-27 20:19:51 阅读次数: 0

package com.ws.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

/**
  * sample 采样
  */
object SampleTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

    val sparkContext = new SparkContext(conf)

    val data = Array(("hello", 1), ("good", 1), ("good", 1), ("good", 1), ("beautiful", 1), ("nice", 1), ("beautiful", 1), ("good", 1), ("good", 1), ("beautiful", 1), ("good", 1), ("beautiful", 1), ("good", 1), ("good", 1), ("good", 1));

    val rdd1: RDD[(String, Int)] = sparkContext.makeRDD(data)
    rdd1.cache()
    //数据倾斜使用采样
    //返回的是对象/集合,非RDD ,返回的结果数量是指定数量,如5;  参数1:是否需要重新放回  参数2:指定采取的数量
    val rdd2: Array[(String, Int)] = rdd1.takeSample(false, 5)
    println(rdd2.toBuffer)

    //返回的是RDD, 参数1:是否需要重新放回, 参数2:抽取的比例(不一定精确)
    val rdd3: RDD[(String, Int)] = rdd1.sample(false, 0.2)
    val rdd4: collection.Map[String, Long] = rdd3.countByKey()

    val buffer: mutable.Buffer[(String, Long)] = rdd4.toBuffer
    println(buffer)

    sparkContext.stop()
  }
}

猜你喜欢

转载自blog.csdn.net/bb23417274/article/details/87890605

spark: sample 数据采样

spark sample采样

spark transform系列__sample

spark之sample

Alias sample(别名采样)

RNN Sample的采样策略

9 spark入门之采样、搜集部分结果sample、takeOrdered

spark 大型项目实战(五十七):数据倾斜解决方案之sample采样倾斜key进行两次join

spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

87.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之sample采样倾斜key单独进行join

spark的sample()算子参数详解

java实现spark常用算子之Sample

数据倾斜之sample采样倾斜key进行俩次join

数据倾斜解决方案之sample采样倾斜key进行两次join

ffmpeg重采样后如何获取sample_size大小的数据

关于乱序（shuffle）与随机采样（sample）的一点探究

sample采样倾斜key并单独进行join代码

在pytorch中的双线性采样（Bilinear Sample）

利用ORACLE实现数据抽样(sample block)

【Hive】HiveQL实战之数据抽样Sample

SAP ABAP和Hybris Commerce的Sample数据

pygplates专栏——Sample code——数据导入

spark实现smote样本采样

spark实现smote近邻采样

路胜生物与A*STAR分享研究数据，显示SAFER™ Sample唾液采样盒可灭活采集的COVID-19病毒

Spark数据倾斜问题解决与如何对pairRDD内部采样

解决树莓派IOError: [Errno Invalid sample rate] -9997 采样率16K错误

RANSAC（Random sample consensus）随机采样一致--边缘检测模型拟合方法

泊松分布采样（Poisson-Disk-Sample）代码及详细注释【OpenCV】

语言模型,word2vec,Negative Sample(负采样) Hierarchical Softmax(层次softmax)

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)