【Spark-SparkSQL】SparkSQL 查询分区数据时会对Hive全表进行扫描（执行SparkSQL程序查询Hive数据时，开启动态资源分配导致分配资源过大，程序无法执行）

编程语言 2023-07-01 06:05:21 阅读次数: 0

问题描述：

SparkSQL 访问 Hive 分区数据时，会先对全表进行扫描，所以一旦 Hive 单表数据量过大，会导致申请的资源过多，程序一直请求不到资源，任务挂掉。

解决方式：（防止查询分区数据时对全表进行扫描）

SparkSession.sql("set spark.sql.hive.caseSensitiveInferenceMode=NEVER_INFER")

转载自blog.csdn.net/weixin_53543905/article/details/130639012

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)