通过py文件将文件中的数据导入到hive遇见的问题 - 代码天地

通过py文件将文件中的数据导入到hive遇见的问题

其他 2019-01-26 02:20:50 阅读次数: 0

因需要通过任务的方式执行将文本的数据导入到HIVE数据库中。所以考虑每次的任务通过命令执行py文件的方式来实现定时导入文件到HIVE数据库中。所以先做了一个测试，但是出行一些问题，现记录下来，供以后查看。

测试脚本如下：

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row

if __name__ == "__main__":
# 初始化SparkSession
spark = SparkSession \
.builder \
.appName("CardInfroToHive_kf") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()

sc = spark.sparkContext

lines = sc.textFile("hdfs://10.250.11.52:8020/source/db/cardinfo/20180507")
parts = lines.map(lambda l: l.split(","))
Cardinfo = parts.map(lambda p: Row(LCN=p[0],IS_TIME=p[5],IS_TYPE=p[6],IS_AREA=p[8],CARD_TYPE=p[11],PURSE_TYPE=p[12],CARD_MARK=p[13]))

#RDD转换成DataFrame
Cardinfo_temp = spark.createDataFrame(Cardinfo)
#创建视图
Cardinfo_temp.createOrReplaceTempView("t_Cardinfo")
#过滤数据

#CREATE HIVE TABLE

spark.sql("use oracledb ")

spark.sql("CREATE TABLE IF NOT EXISTS t_lnt_basic_cardinfo_kf (LCN STRING, IS_TIME STRING,IS_TYPE STRING,IS_AREA STRING,CARD_TYPE STRING,PURSE_TYPE STRING,CARD_MARK STRING) USING hive")
spark.sql("insert into table t_lnt_basic_cardinfo_st SELECT LCN,IS_TIME, IS_TYPE, IS_AREA,CARD_TYPE ,PURSE_TYPE,CARD_MARK FROM t_Cardinfo_st ")

保存文件名：cardinfo.py

执行：python3 cardinfo.py 或者spark-submit cardinof.py

出现问题：

1.执行spark.sql("use oracledb")脚本的时候，出现:

org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'oracledb' not found;

的错误提示。

将脚本拷贝到pyspark的命令模式，所有脚本执行正常。

解决方法：

经过百度，参考传送门：https://blog.csdn.net/lxhandlbb/article/details/56293490

在开头的地方引用HIVE的支持，具体如下，添加粗体部分。

# 初始化SparkSession
spark = SparkSession \
.builder.enableHiveSupport()\
.appName("CardInfroToHive_kf") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()

猜你喜欢

转载自blog.csdn.net/qq_39160721/article/details/80598148

通过py文件将文件中的数据导入到hive遇见的问题

将CSV文件导入到hive数据库

定时将数据导入到hive中

sqoop将mysql的数据导入到hive表中

使用spark将hive中的数据导入到mongodb

使用sqoop将mysql数据导入到hive中

将CSV，TXT文件数据导入到kudu(hive)

sqoop将数据从MySQL导入到hive中的步骤，以及会出现的问题

hive ,从hdfs把数据文件导入到表

hive把本地的数据文件导入到表

HBASE通过bulkload方式将文件导入到HBASE数据库2

poi将excel文件内容导入到数据库中多个表间主键关联问题

poi将excel文件内容导入到数据库中多个表间主键关联问题UfrfO

11.把文本文件的数据导入到Hive表中

将CSV文件中的数据导入到SQL Server 数据库中

将excel文件中的数据导入到数据库中的步骤

ArcEngine将Shp文件导入到GeoDatabase中

将shape文件导入到postgres库中

将excel文件导入到MySQL workbench中

python -- 将mysql数据导入到Excel文件

将excel文件数据导入到数据库中（转）

将Excel表格数据导入到Sqlite3数据库文件中

如何将dmp文件导入到自己的oracle数据库中

利用JXLReadUtil工具将Excel数据导入到properties文件中

logback异步将日志导入到1文件_2数据库中

将数据库中已有表导入到powerDesigner生成pdm文件

如何将dmp文件导入到oracle数据库中

共享组件(有码)：将文件中数据导入到DataTable

如何将.sql文件导入到mysql的数据库中

将文本文件导入到Excel数据表中

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)