安装anaconda,用于管理Python的版本
1).window配置python环境变量
window安装python,配置python环境变量。安装python后,在环境变量path中加入安装的路径,cmd中输入python,检验python是否安装成功。
注意:如果使用的是anaconda安装的python环境,建议安装python3.5.x版本,这个版本和spark1.6兼容。如何在anaconda中安装python3.5.x版本的python环境?参考文档:“Anaconda安装及使用.docx”
2).window Spark环境变量。
window中配置Spark运行环境及Spark环境变量。
a).解压spark的安装包到磁盘目录
b).在环境变量中配置SPARK_HOME指定解压的路径,配置环境变量。
注意:解压spark安装包后,配置环境变量,一定配置到含有bin的外层。
3).python中安装py4j模块。
在python环境中安装py4j模块(python调用java API的中间通信模块)
进入C:\Python27\Scripts使用pip install py4j:
pip install py4j 注:卸载python 模块:pip uninstall py4j
或者,将解压的spark安装包中的
F:\spark-1.6.0-bin-hadoop2.6\python\lib\py4j-0.9-src\py4j拷贝
到C:\Python27\Lib\site-packages中。
验证py4j是否安装成功:进入python ,import py4j
注意:如果使用的是anaconda安装的python3.5.x的环境,之后使用这个python3.5.x环境,一定要将py4j模块放在安装的python3.5.x的目录,即:anaconda目录\envs\Python35【安装python3.5.x版本取的名称】\Lib\site-packages\中。
4).在python中安装pyspark模块
使用pip安装pyspark:
pip install pyspark ,会安装最新的版本的pyspark。
或者,将解压的spark安装包中的
F:\spark-1.6.0-bin-hadoop2.6\python\pyspark拷贝到
C:\Python27\Lib\site-packages中,验证pyspark模块是否安装成功:
进入cmd,输入python,导入pyspark模块,如果没错即安装成功。
注意:如果使用的是anaconda安装的python3.5.x的环境,之后使用这个python3.5.x环境,一定要将pyspark模块放在安装的python3.5.x的目录,即:anaconda目录\envs\Python35【安装python3.5.x版本取的名称】\Lib\site-packages\中。
- eclipse开发pyspark程序。
在eclipse中开发pySpark程序,需要安装pydev插件。
1).eclipse安装python插件,安装完成后重启。
2). 在window--->preferences中找到python interpreter配置安装python的路径:
3).新建python项目:
Python的使用版本有2.7和3.5,两个版本有区别
eclipse安装完成之后,还需要配置:
help——eclipse market——pligin——Windows——preference——Python interpreter——environment——new——pyspark——指定Python3.5的路径,到Python.exe下。
Elicpse开发spark补充配置
- 配置SPARK_HOME
- 方法一
项目运行-右键->Run As->Run Configurations-Environment-New
新建环境PYSPARK_PYTHON 值为C:\Anaconda3\envs\python35\python.exe(自己所安装的python3.5的目录)