Spark加载HDFS parquet数据,批量插入HBASE例子及一个问题优化

场景

HDFS上存储了大量的parquet文件,我需要抽取其中几个字段存储到HBASE里。
中间出现了一个问题,应该是一次批量提交的数据量太多了,所以一直卡着,提示:
INFO AsyncRequestFutureImpl: #3, waiting for 172558 actions to finish on table:
网上没找到怎么解决,最后自己优化了一下代码解决了

代码

主函数:HBase2HDFSLocalTest


import org.apache.spark.sql.{
   
    
    DataFrame, SparkSession}
import org.apache.spark.sql<

猜你喜欢

转载自blog.csdn.net/lwb314/article/details/123873783
今日推荐