Spark 学习（4）数据加载与存储 - 代码天地

Spark 学习（4）数据加载与存储

编程语言 2018-09-17 04:23:47 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/d413122031/article/details/82631463

Load and Save

Text files
- 无结构
- 每行为一条记录
- Load
  - input = sc.textFile("file:///home/holden/repos/spark/README.md") "s3n://bucket/my-files/*.txt" "hdfs://master:port/path"
- Save
  result.saveAsTextFile(outputFile)

Json

半结构化
大多数行为一个计入

Load

    import json 
    data = input.map(lambda x: json.loads(x))

    data = input.jsonFile("tweets.json")

    df = sqlContext.read \
        .format('json').load('py/test/sql/people.json')
    df =sparksession.read.format('json').load('py/test/sql/people.json')
    df = sparksession.read.json('py/test/sql/people.json')

Save

(data.filter(lambda x: x['lovesPandas']).map(lambda x: json.dumps(x))
                                           .saveAsTextFile(outputFile))

CSV

结构化
通常用于电子表格

Load

    import csv
    import StringIO

    def loadRecord(line):
        """Parse a CSV line"""
        input = StringIO.StringIO(line)
        reader = csv.DictReader(input, fieldnames=["name", "favouriteAnimal"])
    return reader.next()
    input = sc.textFile(inputFile).map(loadRecord)

    def loadRecords(fileNameContents):
        """Load all the records in a given file"""
         input = StringIO.StringIO(fileNameContents[1])
         reader = csv.DictReader(input, fieldnames=["name", "favoriteAnimal"])
         return reader
    fullFileData = sc.wholeTextFiles(inputFile).flatMap(loadRecords)

Save
def writeRecords(records): """Write out CSV lines""" output = StringIO.StringIO() writer = csv.DictWriter(output, fieldnames=["name", "favoriteAnimal"]) for record in records: writer.writerow(record) return [output.getvalue()] pandaLovers.mapPartitions(writeRecords).saveAsTextFile(outputFile)

SequenceFiles
- 结构化
- 键值对类型的数据
- Load
  data = sc.sequenceFile(inFile, "org.apache.hadoop.io.Text", "org.apache.hadoop.io.IntWritable")
- Save
  data.saveAsSequenceFile(outputFile)
Protocol buffers
- 结构化
- 一种快速、节省空间的多语言格式。
Object files
- 结构化
- 在Spark作业中用于共享
- Load
  - pickleFile()
- Save
  - saveAsPickleFile()

猜你喜欢

转载自blog.csdn.net/d413122031/article/details/82631463

Spark 学习（4）数据加载与存储

Spark数据存储等学习

spark学习笔记4

Spark学习（4）----ScalaTest

Spark学习笔记：Spark Streaming数据存储与调优

6-spark学习笔记-spark core 数据与存储

spark大数据的学习

spark学习第4天

大数据学习之spark

spark学习（五）——分区数据

大数据学习——spark笔记

大数据Hadoop，spark学习

4-spark学习笔记-spark运行模式与原理

Spark学习——初识spark

Spark学习---Spark概述

大数据学习（09）--spark学习

Spark学习笔记（14）——Spark Streaming 数据累加的案例

Spark学习（陆）- Spark操作外部数据源

Spark学习之使用Spark SQL读取数据库

Spark 从 0 到 1 学习(11) —— Spark 解决数据倾斜

Spark学习

【spark学习】

spark 学习

spark 2.2.0学习笔记4之SparkSQLDemo

spark学习之旅（4）之Streaming的使用

spark学习——spark shell学习

Spark学习之路（二十）SparkSQL的元数据

Spark大数据学习资源汇总

大数据学习之SPARK计算天下

大数据框架学习：从 Hadoop 到 Spark

今日推荐

fl studio v20.8中文破解版(附Crack文件+图文安装教程)

AI驱动TDSQL-C Serverless 数据库技术实战营-电商可视分析

828华为云征文 | 将Vue项目部署到Flexus云服务器X实例并实现公网访问

Java毕业设计：Java江西南昌城市文化展示网站系统毕业设计源代码作品和开题报告

开源日报 | 字节计划使用华为芯片训练新的AI模型；苹果明年可能推出homeOS；加州否决AI安全法案；扎克伯格的Wi-Fi密码

“AI 教母”李飞飞最新对话：当空间智能技术成熟时，机器人革命即将开始

OpenAI 融资 66 亿美元，估值达 1570 亿美元

AI小程序有哪些？AI小程序哪个好用？微信小程序AI写作叫什么？免费的ai小程序推荐 ai写作小程序推荐

灵办AI工具(科研学术,代码编程,学习辅导,图书报告)功能介绍

Linux内核源码分析（非常详细）零基础入门到精通，收藏这一篇就够了

【C++篇】启航——初识C++（上篇）

数据飞轮崛起：数据中台真的过时了吗？

周排行

java服务too many open files

指针变量所占的字节数

Linux 入门篇一（linux基本命令简介，linux系统简介，基本知识点）

VISIO标准图-EPC

BST，BVL，二叉排序树与平衡二叉树

Zabbix 自动发现端口&监控

ubuntu18.04 sumo安装及 traci通信

ROS UVC相机标定和图像矫正

通过 SSH 连接 VirtualBox 中的 CentOS

Nginx的平滑升级

每日归档

更多

2024-10-05(62)

2024-10-04(63)

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)