创建RDD方式

其他 2018-10-06 12:02:02 阅读次数: 0

I ：通过外部的存储系统创建RDD，如本地文件，hdfs等

scala> val a = sc.textFile("/root.text.txt")
a: org.apache.spark.rdd.RDD[String] = /root.text.txt MapPartitionsRDD[22] at textFile at <console>:24

scala> val a = sc.textFile("hdfs://hadoop-01:9000/text.txt")
a: org.apache.spark.rdd.RDD[String] = hdfs://hadoop-01:9000/text.txt MapPartitionsRDD[24] at textFile at <console>:24

II ：将Driver的scala集合通过并行化的方式变成RDD（通常用于测试，实验）

scala> val a = sc.parallelize(List(1,2,4,5))
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[25] at parallelize at <console>:24

III : 调用已存在的RDD的Transformation,会生成一个新的RDD

scala> val b = a.map(x=>(x,1))
b: org.apache.spark.rdd.RDD[(Int, Int)] = MapPartitionsRDD[26] at map at <console>:26

RDD之Transformation的特点：
● lazy，需要用到的时候才进行计算
● 生成新的RDD

猜你喜欢

转载自blog.csdn.net/bb23417274/article/details/82922926

创建RDD方式

RDD的几种创建方式

Spark算子：RDD创建的方式

Spark之创建RDD的方式

SparkCore的RDD创建方式详解

Spark创建RDD的几种方式

Spark RDD使用详解2--RDD创建方式

scala中rdd与dataframe的各种创建方式

RDD编程--创建RDD

RDD的创建

Java代码中使用不同的SparkContext创建RDD的方式

Spark RDD之三种创建方式

Java Spark之创建RDD的两种方式和操作RDD

spark怎么创建RDD，一个创建RDD的方式有哪些它们的区别是什么！！（Unit2）

SparkSQL创建RDD：创建DataFrame的方式，配置Spark on Hive【文字说明+关键代码】

SparkSQL创建RDD：<3>通过反射的方式将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

从rdd创建dataframe

【spark】RDD创建

15.RDD 创建

[Spark]-RDD之创建

[Spark] RDD的创建

Spark RDD创建操作

RDD的概念与创建

Spark之RDD的创建

RDD的创建&操作

【Spark】RDD创建总结

从RDD创建DataFrame（Sparksql）

Spark之RDD创建

Spark RDD的创建

如何创建与使用RDD

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)