版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/SunWuKong_Hadoop/article/details/87069372
原书中写到:
工程师会了解到更多的输出格式,有利于找到非常合适用于下游处理程序的格式。
数据科学家则可能更关心数据现有的组织形式。
三类常见数据源:
1.文件格式与文件系统;
(文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、Hadoop输入输出格式、文件压缩)
(本地“常规”文件系统、Amazon S3、HDFS)
2.Spark SQL中的结构化数据源;(Apache Hive、JSON)
3.数据库与键值存储;(Java数据库连接、Cassandra、HBase、Elasticsearch)
Spark会根据文件的扩展名选择对应的处理方式,这一过程是封装好的,对用户透明。(诸如文本文件(非结构化)、Json格式(半结构化)、SequencrFile(结构化文件))。
总结:
扫描二维码关注公众号,回复:
5921778 查看本文章
将数据读取到Spark中,并将计算结果以你所希望的方式存储起来。
未完待续~~~~~~