hive中groupby和distinct区别以及性能比较 - 代码天地

hive中groupby和distinct区别以及性能比较

其他 2019-06-19 14:33:38 阅读次数: 0

Hive去重统计

相信使用Hive的人平时会经常用到去重统计之类的吧，但是好像平时很少关注这个去重的性能问题，但是当一个表的数据量非常大的时候，会发现一个简单的count(distinct order_no)这种语句跑的特别慢，和直接运行count(order_no)的时间差了很多，于是研究了一下。
先说结论:能使用group by代替distinc就不要使用distinct，例子：

实际论证

order_snap为订单的快照表总记录条数763191489，即将近8亿条记录,总大小:108.877GB,存储的是公司所有的订单信息，表的字段大概有20个,其中订单号是没有重复的,所以在统计总共有多少订单号的时候去重不去重结果都一样，我们来看看:
统计所有的订单有多少条条数，一个count函数就可以搞定的sql性能如何。

猜你喜欢

转载自www.cnblogs.com/wqbin/p/11050970.html

hive中groupby和distinct区别以及性能比较

hive group by distinct区别以及性能比较

Hive的distinct和group by性能比较

MySQL中distinct和group by性能比较[转]

MySQL 中的 distinct 和 group by 的性能比较

hive的group by与distinct的区别及性能测试比较

java中for、foreach、stream区别和性能比较

Union 和 Union all + distinct 性能比较

Hive性能比较之in的使用和join的使用

大数据Flink（五十二）：Flink中的批和流以及性能比较

exists 和 in的性能比较

【转】Hive over HBase和Hive over HDFS性能比较分析

Hive over HBase和Hive over HDFS性能比较分析

shell中let和expr用法及性能比较

Python中in和has_key的性能比较

java中减法和乘法的性能比较

优化groupby 和distinct

Java NIO与IO的区别和比较，NIO与IO线程池性能比较

MySql中IN、OR、BETWEEN性能比较

java中switch 与 else if 性能比较

codis和jedis性能比较

sparksql和mysql性能比较

JAVA和CPP的性能比较

ibatis和hibernate的性能比较

String和stringbuild性能比较

malloc和memset性能比较

CriticalSection 和Mutex 性能比较

Cassandra HBase和MongoDb性能比较

RDL和RDLC性能比较

exp和expdp 导出性能比较

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)