工具sqoop:
一.sqoop相关配置信息:
1. sqoop的概念:
是一个工具,是一个Java写的小工具。
是将hive 中的数据 导出到MySQL中 或者将MySQL中的数据导入到hive中。
2. 配置安装测试
1.上传文件
2、解压
3、切换目录
4、修改sqoop配置文件名称
5、修改配置文件的内容
6、将MySQL的jdbc包、java-json.jar扔进lib中
7、第一个sqoop程序测试
查看可用数据库
二、案例一:从MySQL将数据表中的数据导入到HDFS、HFile
1、mysql下创建sqoop数据库、数据表并添加数据
2、从MySQL将数据表中的数据导入到HDFS、HFile
3、测试
三、案例二:将MySQL中的数据导入到hive表中
1、将hive的所有jar包复制给sqoop
2、在hive中创建对应的数据表(映射关系)
3、将MySQL中的数据导入到hive表中
4、测试
四、案例三:实现增量导入
注意:
1、wc表追加数据
2、增量导入数据
3、测试
五、案例四:从hive导出到MySQL
1、清除wc表的数据
2、从hive导出数据到MySQL
3、测试
六、案例五:sqoop运行文件
1、复制窗口,新建文件并编辑内容
2、清除wc表的数据
3、sqoop运行文件
4、测试
工具flume:
一、flume介绍
和sqoop一样也是一个工具
现在大数据平台比较主流的 日志采集 工具
二、参数配置:
上传文件:
重命名并编辑文件:
案例一:
修改hive的日志配置文件hive-log4j.properties
. 书写测试代码 a-hive-men-log.properties
a1.sources=s1
a1.channels=c1
a1.sinks = k1
a1.sources.s1.type=exec
a1.sources.s1.command=tail -f /opt/modules/hive-1.1.0-cdh5.7.6/logs/hive.log
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100
a1.sinks.k1.type=logger
a1.sources.s1.channels=c1
a1.sinks.k1.channel=c1
运行结果:
同时打开另一个窗口:登录bin/hive 中 随便敲点命令 例如show databases;就会产生日志,就可以在日志监控页面中看见捕捉到新产生的日志文件了
案例二:
a1.sources=s1
a1.channels=c1
a1.sinks = k1
a1.sources.s1.type=exec
a1.sources.s1.command=tail -f /opt/modules/hive-1.1.0-cdh5.7.6/logs/hive.log
a1.channels.c1.type=file
a1.channels.c1.checkpointDir=/opt/datas/flume/check
a1.channels.c1.dataDirs=/opt/datas/flume/datas
a1.sinks.k1.type=logger
a1.sources.s1.channels=c1
a1.sinks.k1.channel=c1
运行如下: