spark 读取的parquet文件schema改变了如何处理 - 代码天地

spark 读取的parquet文件schema改变了如何处理

其他 2018-07-16 10:35:25 阅读次数: 0

当用spark.read.parquet("filepath").as[MyClass]时候，如果被读取的文件schema变了，比如增加了两列，这个时候直接读取会报错，那么有一种变通的方法就是spark.read.parquet("filepath").map(e=> val field =

if (e.isNullAt(e.fieldIndex("field"))) null else e.getAs[String]("

field")

MyClass

})这种形式，也就是通过判断字段存在不存在做处理，否则会直接报异常

org.apache.spark.sql.AnalysisException: No such struct field

更简便的方法是加上option.通过schema合并即可

spark.read.option("mergeSchema", "true").parquet(xxx).as[MyClass]

ref:http://spark.apache.org/docs/latest/sql-programming-guide.html#schema-merging

猜你喜欢

转载自blog.csdn.net/zhouyan8603/article/details/80451471

spark 读取的parquet文件schema改变了如何处理

spark 读取parquet

spark-shell读取parquet文件

Spark读取parquet文件的切分逻辑

【Spark系列】：如何处理数据倾斜

Spark如何读取csv文件

Spark读取Parquet格式的数据为Dataframe

spark读取sequenceFile文件

Spark读取本地文件

spark 读写 parquet

【Spark五十五】Spark读取csv文件

Spark使用parquet文件存储格式

Spark Filter算子在Parquet文件上的下推

Spark SQL数据源：Parquet文件

Spark Streaming 整合 Kafka（Spark读取Kafka）

Spark Streaming 整合 Flume（Spark读取Flume）

利用spark读取phoenix(phoenix-spark)

Spark HadoopRDD读取HDFS文件

Spark 读取文件系统的数据

Java Spark读取JSON文件

Spark读取与保存hdfs文件

Spark的RDD 文件读取与保存

Spark读取HDFS路径文件

Spark parquet merge metadata问题

Spark 系列（十三）—— Spark Streaming 与流处理

spark读取hbase数据

Spark Streaming 读取RabbitMQ

Spark 读取excel csv

Spark数据读取

spark读取es数据

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)