大数据组件安装(非CDH)和使用 总文章
1.安装、启动 Hive:
1.安装 Hive之前的准备工作:安装、配置MySQL
1.查看系统已安装MySQL:rpm -qa | grep mysql
如果需要卸载已安装的MySQL的话,执行 rpm -e 加上
2.在线安装MySQL:yum install mysql mysql-server mysql-devel
3.启动MySQL服务:/etc/init.d/mysqld start
启动MySQL服务:service mysqld start
4.查看MySQL的运行状态:service mysqld status
查询结果显示MySQL正在运行的结果信息:mysqld (pid 22484) is running...
5.设置MySQL开机启动:chkconfig mysqld on
6.查看“设置MySQL开机启动”是否成功:chkconfig mysqld --list
查询结果显示MySQL为开机启动的结果信息:mysqld 0:off 1:off 2:on 3:on 4:on 5:on 6:off
7.进入MySQL配置密码、远程访问权限:
1.如果没有配置密码,那么只需要执行命令:mysql
2.配置密码:
USE mysql;
UPDATE user SET Password=PASSWORD('admin') WHERE user='root';
FLUSH PRIVILEGES;
3.允许远程登录:
mysql -u root -padmin
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'admin' WITH GRANT OPTION;
FLUSH PRIVILEGES;
4.重启MySQL:service mysqld restart;
2.安装 mysql 版的 Hive:
1.tar -zxvf apache-hive-1.2.1-bin.tar.gz
2.mv apache-hive-1.2.1-bin/ hive
3.cd /root/hive/conf
4.cp hive-env.sh.template hive-env.sh
5.vim hive-env.sh:配置 hadoop的根目录的绝对路径
修改 export HADOOP_HOME=/root/hadoop
6./root/hive/conf目录下 执行 vim hive-site.xml,配置内容如下:
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>MySQL用户名</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>MySQL用户对应的密码</value>
<description>password to use against metastore database</description>
</property>
</configuration>
参数:
jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true:
配置“连接本地的MySQL”的连接信息,createDatabaseIfNotExist=true 表示当JDBC连接指定数据库,如果此数据库不存在的话,
那么只要此参数值为true时,则自动创建此数据库。
6.把 mysql-connector-java-5.1.32.jar 拷贝到 hive根目录下的lib目录下
7.如果出现Jline包版本不一致的问题,需要把 hive根目录下的lib目录中的 jline.2.12.jar 拷贝到或替换掉 hadoop根目录下的 share/hadoop/yarn/lib目录下 jline包
3.启动 mysql 版的 Hive:
1.使用方式一:本地路径下启动hive
1.本地连接方式一:
cd /root/hive/bin
./hive
2.本地连接方式二:
cd /root/hive/bin
格式:./hive -e SQL语句
例如:./hive -e 'show databases;'
2.使用方式二:hive启动为一个服务器,来对外提供服务,外部Linux即能远程连接到当前路径下的hive
1.如果外部需要连接当前路径下的hive,那么外部Linux所在的路径下也需要安装配置有hive,外部Linux才能远程连接到当前路径下的hive
把当前路径下的hive推送到别的linux下:scp -r /root/hive root@NODE2:/root
2.启动本地路径下的hive/bin中的hiveserver2服务器,供外部的linux远程连接访问当前linux下的hive
1.前台模式:
cd /root/hive/bin
./hiveserver2
使用 jps 命令查看如果显示有RunJar,表示hiveserver2服务器启动成功
2.后台模式:
cd /root/hive/bin
nohup ./hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &
然后会返回hiveserver2服务器的进程号
3.外部Linux连接访问当前Linux下的hive:(注意使用外部连接方式时必须先启动hiveserver2服务器)
1.连接方式一:
cd /root/hive/bin
./beeline -u jdbc:hive2://NODE1:10000 -n root
然后输入NODE1所在linux的用户名和密码
-u:连接url,可以使用IP,也可以使用主机名,端口默认为10000
-n:连接的用户名(注:不是登录hive的用户名,是hive所在服务器登录用户名)
-p:密码,可以不用输入
如果不知道beeline怎么使用,可以使用如下命令来查看beeline的使用帮助:[root@localhost ~]$ beeline --help
2.连接方式二:
cd /root/hive/bin
./beeline
! connect jdbc:hive2://NODE1:10000
======================================================
1.Hive 安装前需要安装好 JDK 和 Hadoop。配置好环境变量。
2.根据元数据存储的介质不同, 分为下面两个版本, 其中 derby 属于内嵌模式。实际生产环境中则使用 mysql 来进行元数据的存储。
3.内置 derby 版:
解压 hive 安装包
bin/hive 启动即可使用
缺点:不同路径启动 hive,每一个 hive 拥有一套自己的元数据,无法共享
4.mysql 版:
解压、修改配置文件
vi conf/hive-site.xml
配置 Mysql 元数据库信息
详细安装步骤查看《Hive 安装手册》