注：个人学习笔记。

一：spark安装

1.去Apache官网下载对应Hadoop版本的spark（我是Hadoop2.6，Hadoop安装跳过）。补充一句：因为spark是上层应用，里面还是基于Hadoop的hdfs文件系统和yarn的资源调度，所以要先安装Hadoop。
http://spark.apache.org/downloads.html
这里写图片描述
2.上传至对应的目录，解压，里面有Python的接口。

3.配置环境：

#spark
export SPARK_HOME=/home/llb/9E/software/spark-2.3.1-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH
#add spark to python
export PYTHONPATH=/home/llb/9E/software/spark-2.3.1-bin-hadoop2.6/python

　　具体目录根据自己的安装环境来。输入source /etc/profile使之生效。输入 pyspark 检查是否出现如下画面，若是，则成功。
　　这里写图片描述

二：配置jupyter交互界面

1.安装jupyter

pip install jupyter

　　提示无法识别 pip，解决办法： yum -y install epel-release ，然后再执行 yum install python-pip 。
　　可以使用下面的镜像源来装，很快：

sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 包名

但是报错，
这里写图片描述
解决办法：yum install python-devel
输入：jupyter notebook 弹出对应的地址：

2.配置Linux下的jupyter在windows下的浏览器打开（我比较喜欢windows）

1.jupyter notebook --generate-config
生成文件：Writing default config to: /home/llb/.jupyter/jupyter_notebook_config.py
2.配置秘钥：
    python
    from notebook.auth import passwd
    passwd()
    根据提示输入密码
3.
vim ~/.jupyter/jupyter_notebook_config.py
下面是需要改的：
c.NotebookApp.ip = '*'
c.NotebookApp.password = u'sha1:bcd259ccf...<你自己生成的hash密码>'
c.NotebookApp.open_browser = False

　　修改后，输入jupyter notebook 启动，然后复制网址，在windows的浏览器打开，输入密码，即可进入Linux当前用户的家目录。
这里写图片描述
　　后面就和windows下的jupyter一模一样。

3.将pyspark与jupyter连接

sudo vim /etc/profile

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

这样只需在命令段输入：pyspark 就会打开对应的jupyter，然后输入网址进行操作。

VM上spark安装＋jupyter交换环境配置（windows操作虚拟机下的jupyter）

一：spark安装

二：配置jupyter交互界面

1.安装jupyter

2.配置Linux下的jupyter在windows下的浏览器打开（我比较喜欢windows）

3.将pyspark与jupyter连接

猜你喜欢