注:个人学习笔记。
一:spark安装
1.去Apache官网下载对应Hadoop版本的spark(我是Hadoop2.6,Hadoop安装跳过)。补充一句:因为spark是上层应用,里面还是基于Hadoop的hdfs文件系统和yarn的资源调度,所以要先安装Hadoop。
http://spark.apache.org/downloads.html
2.上传至对应的目录,解压,里面有Python的接口。
3.配置环境:
#spark
export SPARK_HOME=/home/llb/9E/software/spark-2.3.1-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH
#add spark to python
export PYTHONPATH=/home/llb/9E/software/spark-2.3.1-bin-hadoop2.6/python
具体目录根据自己的安装环境来。输入source /etc/profile使之生效。输入 pyspark 检查是否出现如下画面,若是,则成功。
二:配置jupyter交互界面
1.安装jupyter
pip install jupyter
提示无法识别 pip,解决办法: yum -y install epel-release ,然后再执行 yum install python-pip 。
可以使用下面的镜像源来装,很快:
sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 包名
但是报错,
解决办法:yum install python-devel
输入:jupyter notebook 弹出对应的地址:
2.配置Linux下的jupyter在windows下的浏览器打开(我比较喜欢windows)
1.jupyter notebook --generate-config
生成文件:Writing default config to: /home/llb/.jupyter/jupyter_notebook_config.py
2.配置秘钥:
python
from notebook.auth import passwd
passwd()
根据提示输入密码
3.
vim ~/.jupyter/jupyter_notebook_config.py
下面是需要改的:
c.NotebookApp.ip = '*'
c.NotebookApp.password = u'sha1:bcd259ccf...<你自己生成的hash密码>'
c.NotebookApp.open_browser = False
修改后,输入jupyter notebook 启动,然后复制网址,在windows的浏览器打开,输入密码,即可进入Linux当前用户的家目录。
后面就和windows下的jupyter一模一样。
3.将pyspark与jupyter连接
sudo vim /etc/profile
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
这样只需在命令段输入:pyspark 就会打开对应的jupyter,然后输入网址进行操作。