Hive之Grouping Sets函数 - 代码天地

Hive之Grouping Sets函数

其他 2019-09-06 11:11:00 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_37536446/article/details/88552305

最近在看一些关于Hive优化的东西，看到一个很好用的函数：Grouping Sets函数，今天就先总结一下关于这个函数的用法！

在一个GROUP BY 查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果进行UNION ALL操作。GROUPING SETS就是一种将多个GROUP BY逻辑UNION写在一个HIVE SQL语句中的便利写法。GROUPING SETS会把在单个GROUP BY逻辑中没有参与GROUP BY的那一列置为NULL值，这样聚合出来的结果，未被GROUP BY的列将显示为NULL。

使用方法：

假如现在又如下场景，a,b,num三个字段，现在要求对a,b字段分别进行统计，有三种情况：(a,b)、(a)、(b)。常规写法我们可能会写成：

SELECT a,b,sum(num) AS total_num
  FROM DW_AAA.BBB
 GROUP BY a,b
 UNION ALL
SELECT a,sum(num) AS total_num
  FROM DW_AAA.BBB
 GROUP BY a
 UNION ALL 
SELECT b,sum(num) AS total_num
  FROM DW_AAA.BBB
 GROUP BY b

现在用GROUPING SETS来进行改写：

SELECT a
      ,b
      ,sum(num) AS total_num
  FROM DW_AAA.BBB
 GROUP BY a,b
 GROUPING SETS (a,b),(a),(b)

可见代码简洁了很多，并且生成的job数也变少且计算的效率提高了（UNION ALL是多次扫描表）。

下面看一个案例：

有如下店铺销售数据：

现有如下需求：按照店铺id和日期维度汇总订单量

代码如下：

SELECT businessid
      ,date
      ,count(DISTINCT orderid)        AS ord_num
  FROM dw_business.basic_info_detail a
 GROUP BY date,businessid
grouping sets((date,businessid),(businessid))

得到结果如下：

从结果中可以看出，businessid为344981的店铺，其订单量为1174，并且在二月份产单1096单，在3月份为78单。

注：

hive中grouping sets 数量较多时如何处理?

可以使用如下设置来

set hive.new.job.grouping.set.cardinality = 30;

这条设置的意义在于告知解释器，group by之前，每条数据复制量在30份以内。

猜你喜欢

转载自blog.csdn.net/weixin_37536446/article/details/88552305

Hive之Grouping Sets函数

Hive之Grouping Sets函数[详解]

hive 数据分析窗口函数之五 GROUPING SETS GROUPING__ID CUBE ROLLUP

Hive分析函数 GROUPING SETS,CUBE,ROLLUP

Hive.GROUPING SETS

Hive_Hive ROLLUP, GROUPING SETS, CUBE 聚合函数 GROUPING 函数与 GROUPING__ID 计算方式

Hive_Hive ROLLUP, GROUPING SETS, CUBE 聚合函数与 GROUPING 函数

hive grouping sets 实现原理

Hive SQL grouping sets 用法

hive中grouping sets的使用

Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

Hive分析窗口函数(四) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE和ROLLUP

Oracle的rollup、cube、grouping sets函数

高级分组函数（rollup、cube、grouping sets）

Hive学习之路（十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP

grouping sets

Oracle Group by增强功能(Rollup，Cube，Grouping sets及Grouping函数)

[转]详解Oracle高级分组函数(ROLLUP, CUBE, GROUPING SETS)

解析数仓OLAP函数：ROLLUP、CUBE、GROUPING SETS

Hive零基础从入门到实战进阶篇（十四） HiveQL：高级聚合函数 grouping sets、cube、rollup

hive中group by的增强特性：grouping__id,grouping,groupin sets,cube,rollup

Hive_Hive 中结合 with 临时表 , FROM ** INSERT 多表插入, ROLLUP/ CUBE/ GROUPING SETS 窗口函数优化统计写入逻辑

试用grouping sets用法

oralce GROUPING SETS

ROLLUP,Cube, grouping sets

【Teradata】grouping和rollup窗口函数 SQL基础之GROUPING

Hive grouping sets 的bug:ParseException line 7:22 missing ) at ',' near '<EOF>'

【十八掌●武功篇】第十掌：Hive中的Grouping Sets

oracle的Rollup/cube/grouping sets

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)