机器学习部分：Python开发环境的安装

安装anaconda，用于管理Python的版本

1).window配置python环境变量

window安装python，配置python环境变量。安装python后,在环境变量path中加入安装的路径，cmd中输入python，检验python是否安装成功。

注意：如果使用的是anaconda安装的python环境，建议安装python3.5.x版本，这个版本和spark1.6兼容。如何在anaconda中安装python3.5.x版本的python环境？参考文档：“Anaconda安装及使用.docx”

2).window Spark环境变量。

window中配置Spark运行环境及Spark环境变量。

a).解压spark的安装包到磁盘目录

b).在环境变量中配置SPARK_HOME指定解压的路径,配置环境变量。

注意：解压spark安装包后，配置环境变量，一定配置到含有bin的外层。

3).python中安装py4j模块。

在python环境中安装py4j模块(python调用java API的中间通信模块)

进入C:\Python27\Scripts使用pip install py4j：

pip install py4j 注：卸载python 模块：pip uninstall py4j

或者，将解压的spark安装包中的

F:\spark-1.6.0-bin-hadoop2.6\python\lib\py4j-0.9-src\py4j拷贝

到C:\Python27\Lib\site-packages中。

验证py4j是否安装成功：进入python ,import py4j

注意：如果使用的是anaconda安装的python3.5.x的环境，之后使用这个python3.5.x环境，一定要将py4j模块放在安装的python3.5.x的目录，即：anaconda目录\envs\Python35【安装python3.5.x版本取的名称】\Lib\site-packages\中。

4).在python中安装pyspark模块

使用pip安装pyspark：

pip install pyspark ,会安装最新的版本的pyspark。

或者，将解压的spark安装包中的

F:\spark-1.6.0-bin-hadoop2.6\python\pyspark拷贝到

C:\Python27\Lib\site-packages中，验证pyspark模块是否安装成功：

进入cmd,输入python,导入pyspark模块，如果没错即安装成功。

注意：如果使用的是anaconda安装的python3.5.x的环境，之后使用这个python3.5.x环境，一定要将pyspark模块放在安装的python3.5.x的目录，即：anaconda目录\envs\Python35【安装python3.5.x版本取的名称】\Lib\site-packages\中。

eclipse开发pyspark程序。

在eclipse中开发pySpark程序，需要安装pydev插件。

1).eclipse安装python插件,安装完成后重启。

2). 在window--->preferences中找到python interpreter配置安装python的路径：

3).新建python项目：

Python的使用版本有2.7和3.5，两个版本有区别

eclipse安装完成之后，还需要配置：

help——eclipse market——pligin——Windows——preference——Python interpreter——environment——new——pyspark——指定Python3.5的路径，到Python.exe下。

Elicpse开发spark补充配置

配置SPARK_HOME

方法一

项目运行-右键->Run As->Run Configurations-Environment-New

新建环境PYSPARK_PYTHON 值为C:\Anaconda3\envs\python35\python.exe（自己所安装的python3.5的目录）

机器学习部分：Python开发环境的安装

猜你喜欢