spark 导入文件到hive出现多小文件的问题 - 代码天地

spark 导入文件到hive出现多小文件的问题

其他 2019-01-26 02:19:50 阅读次数: 0

环境：

ambari:2.6.1

spark 2.1

python 3.6

oracle 11.2

sqoop 1.4

将sqoop采集到HDFS中的文件导入到HIVE数据库，导入成功后，发现hive数据库中出现多个小文件的问题，严重影响后期数据分析的加载速度。

解决方法：

SJTable = spark.sql("select  *          from " + tablename + "_tmp where att = '1E'")
datanum = SJTable.count()
#解决小文件
SJTable_tmp = SJTable.repartition(1).persist()
SJTable_tmp.createOrReplaceTempView(tablename + "_cpu_tmp")

    spark.sql("insert into table " + tablename + "_cpusj PARTITION(area,timdate) select  lcn,pid,tim,tf,fee,bal,epid,etim,card_type,service_code,is_area_code,use_area_code \
                       ,clea_day,CURRENT_TIMESTAMP,use_area_code as area,substr(tim,1,6) as timdate from " + tablename + "_cpu_tmp")

修改后的文件：

猜你喜欢

转载自blog.csdn.net/qq_39160721/article/details/82387328

spark 导入文件到hive出现多小文件的问题

小文件有什么危害？（hive、spark到hdfs）

spark 处理小文件问题

Spark定期合并Hive表小文件

spark小文件过多

spark 写文件到hive

hive on spark 动态解决小文件太多的办法

从源码看Spark读取Hive表数据小文件和分块的问题

Hadoop、Spark处理小文件

针对小文件的spark wholeTextFiles()

Spark合并输出小文件

Spark SQL处理小文件

spark小文件合并解决多级分区

spark-hive on spark

Spark：hive on spark

Spark -- Spark-On-Hive

Spark_Spark On Hive

Spark_Spark On Hive

spark--Spark-On-Hive-★★★★★

hive on spark 配置文件

如何避免Spark SQL做数据导入时产生大量小文件

hive on spark

spark on hive

SparkSQL & Spark on Hive & Hive on Spark

hive on spark 和spark on hive

spark读Hadoop文本文件到hive

Hive on Spark 与Spark SQL比较

Spark SQL与Hive on Spark的比较

CDH的 hive on spark（spark on yarn）

【Spark】Spark 访问连接 HIVE

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)