SparkStreaming把 DataFrame写入到Hbase的常用方式

版权声明:所有内容原创,如需转载,请声明 https://blog.csdn.net/lovedopa/article/details/82860069

一  为什么我们要学习写入的方法?

spark是我们目前来说,最流行的分布式计算框架爱,hbase是在hdfs上的列分布式存储引擎,可以基于spark做实时或者离线的计算。

数据的结果保存在hbase中,这是目前很流行的方法,之后,我们把这个海量的数据,供给用户画像,推荐系统,单品画像等。

二  写法介绍

这里我们有三种写入的方法。

1  hbase自带的api  使用put的方法

rdd.foreachPartition{
recoreds =>
val config = HbaseConfiguratuion.create
config.set("hbase的对接zookeeper端口号":"2181")
config.set("hbase对接的zookepper的集群的位置","a1,a2,a3")
val connetion=ConnectionFactory.createConnection(config)
val table=connection.getTable(TableName.valueoF("res:user_rec"))
val list = new java.util.ArrayList[Put]
table.put(list)
//分区数据写入到hbase之后关闭
table.close

}

2   hortonworks 这种方法

这个需要用户自己编译源码jar包

3 华为的spark 和 hbase 对接的工具包

还有其他的比如

hbase 2.X版本  对接hbase spark

不过目前这个只是测试版而已。

猜你喜欢

转载自blog.csdn.net/lovedopa/article/details/82860069