最近在研究spark,虽然windows下也能安装运行spark(亲测可行,但是开放9000端口还是连接不上docker上部署的hdfs),但是在windows下使用多有不便,于是安装了双系统(网上教程很多),如果在安装过程中出现卡死问题,可以看看这篇能不能解决 https://blog.csdn.net/tonydz0523/article/details/80532615
在ubuntu上配置环境比较简单:
1、安装java
2、安装spark
安装java
1、官网下载jdk的Linux包
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
下载最新的tar包,别忘了点accept license
2、sudo mkdir /usr/lib/jdk
3、系统默认下载到download文件夹,打开终端cd 到下载文件文件夹,或者文件管理器找到文件夹后右键打开终端
4、sudo tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/lib/jdk
5、然后我们需要配置PATH路径,让jdk命令在任何路径下都能够直接执行
sudo gedit /etc/profile
没有安装gedit的可以 vi vim都行
在配置文件后加上
# java
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_171
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
6、重新载入/etc/profile配置文件
source /etc/proflie
7、运行java -version
查看java是否安装成功
出现如下结果说明安装成功
java version "1.8.0_171"
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)
安装spark
1、官网下载地址 http://spark.apache.org/downloads.html
下载包到本地
2、sudo mkdir /usr/lib/spark
3、系统默认下载到download文件夹,打开终端cd 到下载文件文件夹,或者文件管理器找到文件夹后右键打开终端
4、sudo tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /usr/lib/spark
5、配置spark
cd /usr/lib/spark/spark-2.3.0-bin-hadoop2.7/conf/
sudo cp spark-env.sh.template spark-env.sh
sudo gedit spark-env.sh
在最后加上
JAVA_HOME=/usr/lib/jdk/jdk1.8.0_171
SPARK_WORKER_MEMORY=4g
6、然后我们需要配置PATH路径,让jdk命令在任何路径下都能够直接执行
sudo gedit /etc/profile
没有安装gedit的可以 vi vim都行
在配置文件后加上
#spark
export SPARK_HOME=/usr/lib/spark/spark-2.3.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH
7、重新载入/etc/profile配置文件
source /etc/proflie
8、运行 pyspark
查看spark是否安装成功
出现如下结果说明安装成功
安装pyspark
由于本人使用python操作spark,所以使用 pip 安装了pyspark
pip install pyspark
不知道不装有没有影响,没有尝试
打开python运行
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').appName('test').getOrCreate()
运行顺利说明安装成功
附:
python环境:anaconda安装
1、下载anaconda,由于官网太慢了,我们到清华镜像站下载:
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
拉倒最后就是新版本
2、下载完成cd到文件目录运行sudo sh Anaconda3-5.1.0-Linux-x86_64.sh
开始安装一路回车,yes 就行;最后有个微软的软件没啥用可以no
3、配置系统默认使用anaconda里的python
sudo gedit ~/.bashrc
根据anaconda安装位置配置alias python
4、终端输入python
,结果如下说明配置完成
5、ide的话初学推荐pycharm,其实anaconda自带jupyter notebook 就很好用
本人刚接触spark如果有什么错误的话请留言指出
参考:
https://blog.csdn.net/lengconglin/article/details/77847623
https://blog.csdn.net/u010171031/article/details/51849562