问题描述:
SparkSQL 访问 Hive 分区数据时,会先对全表进行扫描,所以一旦 Hive 单表数据量过大,会导致申请的资源过多,程序一直请求不到资源,任务挂掉。
解决方式:(防止查询分区数据时对全表进行扫描)
SparkSession.sql("set spark.sql.hive.caseSensitiveInferenceMode=NEVER_INFER")
问题描述:
SparkSQL 访问 Hive 分区数据时,会先对全表进行扫描,所以一旦 Hive 单表数据量过大,会导致申请的资源过多,程序一直请求不到资源,任务挂掉。
解决方式:(防止查询分区数据时对全表进行扫描)
SparkSession.sql("set spark.sql.hive.caseSensitiveInferenceMode=NEVER_INFER")