Hive系统配置及数据导入--【导入csv文件】

1、安装Hadoop环境、并安装Hive。
(1)方法一(使用官方教程安装)
①按照之前的课程或者官方文档安装Hadoop环境(单节点)
https://hadoop.apache.org/docs/r2.10.1/hadoop-project-dist/hadoop-common/SingleCluster.html

②按照官方文档安装Hive2
https://cwiki.apache.org/confluence/display/Hive/GettingStarted

(2)方法二(使用已有的Hive的Docker镜像)
①访问https://github.com/big-data-europe/docker-hive

②使用git命令克隆项目到docker-compose环境下,里面包含Dockerfile及docker-compose.yml等文件。
可以使用pycharm运行该命令

git clone https://github.com/big-data-europe/docker-hive.git

在这里插入图片描述
③使用docker-compose后台启动Hive服务

docker-compose up -d

在这里插入图片描述
2、在Hive中导入实验数据。
①如果是虚拟机环境,使用ftp工具,将1.csv文件传输至虚拟机某文件夹。
②如果是Docker容器环境,使用docker cp命令将1.csv文件复制到Hive容器中。重开一个窗口,进入docker-hive 【该命令可以导入本地文件或虚拟机文件】

 docker cp xxxx/1.csv docker-hive_hive-server_1:/opt

在这里插入图片描述
在这里插入图片描述
③使用docker-compose进入Hive容器

docker-compose exec hive-server bash

在这里插入图片描述
④进入容器后,使用Hive客户端工具beeline访问Hive

/opt/hive/bin/beeline -u jdbc:hive2://localhost:10000

在这里插入图片描述
⑤在Hive里创建表,输入如下命令

create table flow(record int,download int,staytime int,country string,region string,city string,visitdate string,pv int,province string,category string,uv int,ev int,page string) row format delimited fields terminated by ',' stored as textfile;

在这里插入图片描述
⑥在Hive里导入数据

load data local inpath '/opt/1.csv' into table flow;

⑦查询数据是否导入成功

扫描二维码关注公众号,回复: 13460066 查看本文章
select * from flow limit 10;

结果图:(如使用Docker容器方式使用Hive,查询结果乱码,可忽略该问题)
在这里插入图片描述

3、参考资料:
1.Hadoop(单节点安装)官方文档
https://hadoop.apache.org/docs/r2.10.1/hadoop-project-dist/hadoop-common/SingleCluster.html

2.Hive官方安装教程https://cwiki.apache.org/confluence/display/Hive/GettingStarted

猜你喜欢

转载自blog.csdn.net/weixin_45044349/article/details/120902919