Hive 概念与安装

1.概述与特点

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

本质是：将HQL转化成MapReduce程序

Hive处理的数据存储在HDFS
Hive分析数据底层的实现是MapReduce
执行程序运行在Yarn上

2.hive的优缺点

优点

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）
避免了去写MapReduce，减少开发人员的学习成本。
Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合；
Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

缺点

Hive的HQL表达能力有限，迭代式算法无法表达，数据挖掘方面不擅长。
Hive的效率比较低，Hive自动生成的MapReduce作业，通常情况下不够智能化，Hive调优比较困难，粒度较粗

3.基本组成

Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

用户接口：包括 CLI、JDBC/ODBC、WebGUI。
CLI为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive
元数据存储：通常是存储在关系数据库如 mysql , derby中。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
驱动器：Driver 解释器、编译器、优化器、执行器。 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。

4. Hive的数据存储

Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）
只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive就可以解析数据。
Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。
db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：外部表, 与table类似，不过其数据存放位置可以在任意指定路径,普通表: 删除表后, hdfs上的文件都删了,External外部表删除后, hdfs上的文件没有删除, 只是把文件删除了
partition：在hdfs中表现为table目录下的子目录
bucket：桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中

5. hive的安装

```
 5.1 解压安装包  tar -zxvf apache-hive-1.1.0-bin.tar.gz

 5.2 添加环境变量  vi /etc/profile

    导入下面的环境变量
    export HIVE_HOME=/apps/hive
    export PATH=$PATH:$HIVE_HOME/bin

    使其有效 source /etc/profile

 5.3 创建文件hive/conf/hive-site.xml，内容如下
    <?xml version="1.0" encoding="UTF-8" standalone="no"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
  <!-- 数据库的URL，与数据库名称 -->
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
        <description>JDBC connect string for a JDBC metastore</description>
    </property>
    <!-- 数据库的驱动-->
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
        <description>Driver class name for a JDBC metastore</description>
    </property>
    <!-- 数据库的用户名 -->
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
        <description>username to use against metastore database</description>
    </property>
    <!-- 数据库的密码 -->
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>zhmcode</value>
        <description>password to use against metastore database</description>
    </property>
 </configuration>

    5.4 拷贝mysql-connector-java-5.1.6-bin.jar 到hive 的lib下面
    mv /mysql-connector-java-5.1.6-bin.jar /apps/hive/lib/

    5.5 把jline-2.12.jar拷贝到hadoop相应的目录下，替代jline-0.9.94.jar，否则启动会报错
    //先把/apps/hadoop/share/hadoop/yarn/lib下的jline删除掉，然后在将高版本的jline拷入到其包中
    cp /apps/hive/lib/jline-2.12.jar /apps/hadoop/share/hadoop/yarn/lib/

    5.6 创建hive临时文件夹
    mkdir /hadoopdata/hive/iotmp

    5.7 启动测试hive，启动hadoop后，执行hive命令
        // 启动hive前要确保hadoop与mysql成功启动
        hive
        测试输入 show database;
        hive> show databases;
 ```

Hive 概念与安装

Hive 概念与安装

1.概述与特点

2.hive的优缺点

3.基本组成

4. Hive的数据存储

5. hive的安装

猜你喜欢