跟我一起学Spark之——数据读取与保存 - 代码天地

跟我一起学Spark之——数据读取与保存

其他 2019-04-17 13:13:50 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/SunWuKong_Hadoop/article/details/87069372

原书中写到：

工程师会了解到更多的输出格式，有利于找到非常合适用于下游处理程序的格式。

数据科学家则可能更关心数据现有的组织形式。

三类常见数据源：

1.文件格式与文件系统；

（文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、Hadoop输入输出格式、文件压缩）

（本地“常规”文件系统、Amazon S3、HDFS）

2.Spark SQL中的结构化数据源；（Apache Hive、JSON）

3.数据库与键值存储；（Java数据库连接、Cassandra、HBase、Elasticsearch）

Spark会根据文件的扩展名选择对应的处理方式，这一过程是封装好的，对用户透明。（诸如文本文件（非结构化）、Json格式（半结构化）、SequencrFile（结构化文件））。

总结：

扫描二维码关注公众号，回复： 5921778 查看本文章

将数据读取到Spark中，并将计算结果以你所希望的方式存储起来。

未完待续~~~~~~

猜你喜欢

转载自blog.csdn.net/SunWuKong_Hadoop/article/details/87069372

跟我一起学Spark之——数据读取与保存

跟我一起学Spark之——数据分区

跟我一起学Spark之——《Spark快速大数据分析》pdf版下载

跟我一起学Spark之——Spark进阶编程

跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断

跟我一起学Spark之——自定义分区实现

跟我一起学Spark之——用户在线时长和登录次数统计

跟我一起学.NetCore之依赖注入

跟我一起学Docker

跟我一起学 mybatis

跟我一起从零开始学python（十一）简述spark

跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测

跟我一起学docker(一)--认识

跟我一起学Mysql介绍（一）

跟我一起学python3（一）

跟我一起学Spring(一)

跟我一起来学golang之《操作redis》（一）

跟我一起学docker(七)--网络

跟我一起学docker(八)--Dockerfile

跟我一起学MFC–【目录】

跟我一起学docker(十)--jenkins的使用

跟我一起学PYTHON day1

跟我一起学docker汇总

0-跟我一起学Redis吧

跟我一起学python(1):占位符

跟我一起学魔术（1）---《纸牌大学》

跟我一起学python3（二）

跟我一起学Spring(二)

2020年跟我一起学Java吧

跟我一起学makefile笔记

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)