SQL/HQL中数据去重的3种方式 - 代码天地

SQL/HQL中数据去重的3种方式

编程语言 2019-04-09 14:10:52 阅读次数: 0

30万条数据的去重比较

1.distinct

select distinct * from tableName

hive用时: 40.47秒
impala用时: 11.98秒

2.group by

select c1,c2,c3,c4,c5,max(c6) c6
from tableName
group by c1,c2,c3,c4,c5

hive用时: 22.8秒
impala用时: 2.4秒

3.窗口函数( 这里选用:row_number()over() )

select * from 
	(select c1,c2,c3,c4,c5,c6,
		row_number()over(partition by c1,c2 order by c6 desc) ranking
	from tableName) tmp
where ranking = 1

hive用时: 21.41秒
impala用时: 2.5秒

总结:

distinct 效率最低,不建议使用;
group by 和窗口函数的去重效率高,用时差不多,根据实际情况使用.

猜你喜欢

转载自blog.csdn.net/Thomson617/article/details/89145724

SQL/HQL中数据去重的3种方式

List去重3种方式

Hive安装&sql去重的4种方式&Zeppelin安装

Day1：数组去重(至少3种方式)

GP中两种主键去重的方式

SQL：数据去重的三种方法

SQL Server中数据去重单列数据合并

hive数据去重方式

Sql去重查询数据

sql中查重和去重

List的五种去重方式

数组去重的5种方式

list去重的三种方式

list去重的四种方式

JavaScript数组去重的7种方式

mysql 去重的两种方式

Java中初始化List的5种方法 /List的2种去重方式

JavaScript中的数据的去重

Hibernate 的三种查询方式：HQL、Criteria、Sql

JS中的五种去重方法

数组中多条对象去重方式

JavaScript中数组去重的多种方式

Mysql：sql去重的几种方式（大数据hive也可参考）

sql中的去重与group by的理解

sql server关于查询数据去重

sql去重显示整行数据

SQL：数据按多列去重

三种去重方式——HashSet、Redis去重、布隆过滤器（BloomFilter）

JS的四种数组去重方式

JS实现数组去重的六种方式

今日推荐

周排行

vue + echart +map中国地图，省市地图，区县地图

spring boot2 (31)-cors跨域请求

『学习资料推荐』299元买的微信营销资料打包

个人学习卷积神经网络的疑惑解答

网络工程师-软考

模拟人生4 春夏秋冬、星梦起飞版更新下载方法以及常见问题

python关于对象的字符串显示str和repr以及

奇怪的session混乱问题

【3】分治法（divide-and-conquer）

Java项目开发成绩管理系统（九）各模块实现信息修改

每日归档

更多

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)