pyspark搭建使用

1、安装python、spark、java

环境版本:

debian7

python3.6

java1.8

spark-2.4.0-bin-hadoop2.6

如果有网络可尝试用apt-get与pip下载安装,离线环境可下载使用安装包


2、问题

2.1、python版本冲突:

“EXCEPTION:Python in worker has different version 2.7 than that in driver 3.6”

解决:

增加环境变量

(指向所有python执行文件,在spark-env.sh中添加似乎无效)

扫描二维码关注公众号,回复: 11064155 查看本文章
export PYSPARK_PYTHON=/usr/local/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/local/bin/python3

其他环境变量

export SPARK_HOME=/home/hadoop/spark-2.4.0-bin-hadoop2.6 export PATH=$PATH:${SPARK_HOME}/bin

3、使用

此处连接hadoop使用:

from pyspark import SparkContext,SparkConf
sc = SparkContext(conf=SparkConf().setAppName("First App"))
logData = sc.textFile("hdfs://ip:9000/user/hadoop/xxx.xx")
logData.first()

4、参考

http://codingdict.com/article/8881

https://www.jianshu.com/p/5a42fe0eed4d

猜你喜欢

转载自www.cnblogs.com/GO-NO-1/p/12758654.html