Spark范例:SortByKey - 代码天地

Spark范例:SortByKey

企业开发 2018-05-13 07:21:49 阅读次数: 0

前年的文章，备份

spark自身不提供sortByKey的功能，但提供reduceByKey,groupByKey,combineByKey等功能。
SortByKey常用于构建倒排索引上。

比如原始数据结构为
(key1,4)
(key1,3)
(key1,7)
(key1,1)
需要转换成
(key1,(1,3,4,7))

我创建了一个简单的数据样本，保存到一个文件里sortByKey.txt。也可以自己通过parallelize随机生成
文件里的内容如下：

key1 2
key1 3
key2 54
key1 23
key2 12
key3 45
key3 5
key1 53
key2 4
key3 78
key3 17
key2 6
key1 70
key1 74
key2 45
key1 41
key2 14

使用spark完成这样的任务也很简单，代码如下：

import spark.SparkContext
import spark.SparkContext._
 
object SortByKey {
  def main(args: Array[String]) {
     if (args.length == 0) {
      System.err.println("Usage: SortByKey   [slices]")
      System.exit(1)
    }
    var slices = if (args.length > 2) args(1).toInt else 2
    val spark = new SparkContext(args(0), "SortByKey Test")
    val file = spark.textFile(args(1), slices).map(line =&gt; (line.split(" ")(0), line.split(" ")(1).toInt))
 
    val group = file.groupByKey()//收集
 
    val sortPairs = group.map{p =>
      val sortArray = p._2.sortWith(_ < _)//排序
      (p._1, sortArray)
    }
    //验证排序效果
    val first = sortPairs.first()
    println("key:"+first._1)
    println("value:"+first._2)
    first._2.foreach(println)
  }
}

猜你喜欢

转载自yiihsia.iteye.com/blog/1973547

Spark范例:SortByKey

spark transform系列__sortByKey

spark sortBy sortByKey实战详解

Spark入门（六）--Spark的combineByKey、sortBykey

【Spark】Spark groupByKey，reduceByKey，sortByKey 算子比较

Spark: sortBy和sortByKey函数详解

spark源码解读4之SortByKey

spark：sortByKey实现二次排序

Spark groupByKey、sortByKey、reduceByKey Java实现

spark常用的算子总结（6）—— sortByKey

java实现spark常用算子之SortByKey

java spark转换算子sortByKey

Spark中sortByKey算子详解介绍

6 spark入门键值对操作sortByKey、groupByKey、groupBy、cogroup

Spark实践三：Spark Streaming开发范例

用JAVA简单实现Spark转换算子实例（reduceByKey,sortByKey,join,cogroup）

Spark中 sortByKey被划分到transformation中，却有action操作原因

Spark源码解析排序算子sortBy和sortByKey存在未排序的情况

范例

Spark范例：统计CSDN不同邮箱的密码白痴指数

自定义 spark transformer 和 estimator 的范例

sortBy和sortByKey区别

Spark算子：sortbykey和repartitionAndSortWithinPartitions（一边进行重分区的shuffle操作，一边进行排序。shuffle与sort两个操作同时进行）

KissXML范例

sqlite范例

rspec 范例

论文范例

Dockerfile范例

(二)常用Shuffle类算子：groupByKey、reduceByKey、aggregateByKey 和 sortByKey

copyOnWriteArrayList的解释和范例

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)