大数据(二十一):hive查询语句

一、查询语句

1.基本语法

SELECT [ALL|DISTINCT] select_expr,select_expr,...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list|[DISTRIBUTE BY col_list][SORT BY col_list]]
[LIMIT number]
  1. SQL语句大小写不敏感
  2. SQL可以写在一行或者多行
  3. 关键字不能被缩写也不能分行
  4. 各句子一般要分行写
  5. 使用缩进来提高语句的可读性

2.Where语句

使用WHERE子句,可以将不满足条件的行过滤掉。where子句紧随FROM子句。

where语句中的比较运算符

操作符

支持的数据类型

描述

A=B

基本数据类型

如果A等于B则返回TRUE,反之返回FALSE

A<=>B

基本数据类型

如果A和B都为NULL,则返回TRUE,其他的和等号(=)操作符的结果一直,如果任意一位Null则结果为Null

A<>B,A!=B

基本数据类型

A或B为Null则返回Null;如果A不等于B,则返回TRUE,反之返回FALSE

A<=B

基本数据类型

A或B为Null,则返回Null;如果A小于等于B,则返回TRUE,反之返回FALSE

A>=B

基本数据类型

A或B为Null,则返回Null;如果A大于等于B,则返回TRUE,反之返回FALSE

A [NOT] BETWEEN B AND C

基本数据类型

如果A,B或者C任一为Null,则返回Null。如果A的值大于等于B而且小于等于C,则结果为TRUE,反之为FALSE。如果使用NOT关键字则可以达到相反的效果。

A IS NULL

所有数据类型

如果不等于Null,则返回TRUE,反之返回FALSE

A IS NOT NULL

所有数据类型

如果A本等于Null,则返回TRUE,反之返回FALSE

IN(数值1,数值2)

所有数据类型

使用IN运算显示列表中的值

A [NOT] LIKE B

STRING类型

B是一个SQL下的简单正则表达式,如果A与其匹配的话,则返回TRUE;反之返回FALSE。B的表达式说明如下:'x%'表示A必须以字母x开头,'%x'表示A必须以字母x结尾,而'%x%'表示A包含字母x,可以是任何位置。如果使用NOT则可以达到反效果

A RLIKE B,A REGEXP B

STRING类型

B是一个正则表达式,如果A与其匹配,则返回TRUE;反之返回FALSE。匹配使用的是JDK中的正则表达式接口实现的,因为正则也依据其中的规则。

  1. 使用Like运算选择类似的值
  2. 选择条件可以包换字符或者数字:%代表0个或者多个字符,_表示一个字符
  3. RLIKE子句是HIVE中这个功能的一个扩展,其可以通过JAVA的正则表达式这个更强大的语言来指定匹配条件。

3.逻辑运算符

操作符

含义

AND

逻辑并

OR

逻辑或

NOT

逻辑否

4.Group by语句

        GROUP BY语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。

5.Having语句

  1. Where针对表中的列发挥作用,查询数据;having针对查询结果中的列发挥作用,筛选数据。
  2. where后面不能写分组函数,而having后面可以使用分组函数
  3. having只用于group by分组统计语句

二、join连接

Hive支持通常的SQLJOIN语句,但是只支持等值连接,不支持非等值连接。

  • JOIN ON:内连接只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
  • LEFT JOIN ON:左外连接JOIN操作符左边表中符合Where子句的所有记录将会被返回。
  • RIGHT JOIN ON:右外连接JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。
  • FULL JOIN ON:满外连接将会返回所有表中符合where语句条件的所有记录。如果任一表的指定字段满意符合条件的值的话,那么就使用Null代替。

三、排序

1.全局排序

Order By:全局排序,只会产生一个MapReduce

  1. ASC表示升序(默认)
    DESC表示降序
  2. ORDER BY子句在SELECT语句的结尾
  3. 实例
select * from emp order by sal desc;

2.MapReduce内部排序(Sort By)

设置reduce个数

set mapreduce.job.reduces=3;

查询实例

select * from emp sort by empno desc;

查询并将结果导入到文件中

insert overwrite local directory '/opt/datas/sortby' select * from emp sort by deptno desc;

3.分区排序(Distribute By)

Distribute By:类似MapReduce中partition,进行分区,结合sort by使用,Hive要求Distribute By要写在Sort by语句之前。

        对于Distribute By进行测试,一定要分配多reduce进行处理,否则无法看见Distribute By的效果。

insert overwrite local directory '/opt/dates/distribute' select * from emp distribute by deptno sort by empno desc;

3.Cluster By

当Distribute By和sorts by字段相同的时候,可以使用Cluster By方式。

Cluster By除了具有Distribute By的功能之外还具有sort by的功能。但是排序只能是倒序排序,不能指定排序规则。

select * from emp cluster by deptno;
select * from emp distribute by deptno sort by deptno;

这两种排序方式是等价的

猜你喜欢

转载自blog.csdn.net/qq_34886352/article/details/82854087