SparkSQL编程之RDD与DateFrame转换 - 代码天地

SparkSQL编程之RDD与DateFrame转换

其他 2019-05-14 09:00:57 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37294838/article/details/90199088

RDD转换为DataFrame

注意：如果需要RDD与DF或者DS之间操作，那么都需要引入 import spark.implicits._ 【spark不是包名，而是sparkSession对象的名称】

前置条件：导入隐式转换并创建一个RDD

scala> import spark.implicits._

import spark.implicits._

scala> val peopleRDD = sc.textFile("examples/src/main/resources/people.txt")

peopleRDD: org.apache.spark.rdd.RDD[String] = examples/src/main/resources/people.txt MapPartitionsRDD[3] at textFile at <console>:27

1）通过手动确定转换

scala> peopleRDD.map{x=>val para = x.split(",");(para(0),para(1).trim.toInt)}.toDF("name","age")

res1: org.apache.spark.sql.DataFrame = [name: string, age: int]

2）通过反射确定（需要用到样例类）

（1）创建一个样例类

scala> case class People(name:String, age:Int)

（2）根据样例类将RDD转换为DataFrame

scala> peopleRDD.map{ x => val para = x.split(",");People(para(0),para(1).trim.toInt)}.toDF
res2: org.apache.spark.sql.DataFrame = [name: string, age: int]

DateFrame转换为RDD

直接调用rdd即可

1）创建一个DataFrame

scala> val df = spark.read.json("/opt/module/spark/examples/src/main/resources/people.json")

df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

2）将DataFrame转换为RDD

scala> val dfToRDD = df.rdd

dfToRDD: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[19] at rdd at <console>:29

3）打印RDD

scala> dfToRDD.collect

res13: Array[org.apache.spark.sql.Row] = Array([Michael, 29], [Andy, 30], [Justin, 19])

猜你喜欢

转载自blog.csdn.net/m0_37294838/article/details/90199088

SparkSQL编程之RDD与DateFrame转换

SparkSQL编程之RDD、DataFrame、DataSet

SparkSQL编程之RDD、DataFrame、DataSet区别与共性

SparkSql数据从RDD集转换

SparkSQL编程之DataSet

SparkSQL编程之DataFrame

Spark-RDD编程之常见转换操作

SparkSQL编程之DataFrame详解

SparkSQL-02 RDD转换DF的两种方式

SparkSQL之实现RDD、DF与DS转换代码演示

SparkSQL编程之SparkSession新的起始点

SparkSQL编程之DataFrame与DataSet的互操作

详解 Spark 核心编程之 RDD 算子

配置sparksql读hive，dataframe和RDD，将RDD转换成Dataframe，视图，withcolumn

从RDD创建DataFrame（Sparksql）

Spark之【RDD编程】详细讲解(No2)——《RDD的转换》

SparkSQL编程之自定义聚合函数（弱类型）

SparkSQL编程之自定义聚合函数（强类型）

SparkSQL编程之用户自定义函数

SparkSQL编程之DataSet以及DataFrame与DataSet的互操作

Spark核心编程-RDD转换操作

Spark编程--键值对RDD转换操作

《SparkSQL剖析》SparkSQL到RDD概述

SparkSQL创建RDD：<4>动态创建Schema将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

SparkSQL创建RDD：<3>通过反射的方式将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

SparkSQL| RDD&DataFrame&DataSet

Spark-RDD编程之持久化操作

Spark-RDD编程之常见执行操作

Python编程之进制转换

Spark之【SparkSQL编程】系列(No3)——《RDD、DataFrame、DataSet三者的共性和区别》

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)