5. 基于 Mac 平台 VMware 虚拟机的 Spark 安装 (5)

接上篇文章,(4) "基于 VMware + CentOS + Hadoop + MySQL,安装 Hive,并进行相应的配置"
这篇文章里,主要介绍 (5) "基于 VMware + CentOS + Hadoop + MySQL + Hive,安装 Spark,并进行相应的配置"


以下操作均基于 root 用户


一、安装 Spark 

于官网 http://spark.apache.org/downloads.html 
下载 spark-2.2.3-bin-hadoop2.6.tgz 到目录 /app/soft 
使用命令 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 解压文件
得到 Spark 的主目录 /app/soft/spark-2.2.3-bin-hadoop2.6 


二、配置 Spark 

1. 于 master 机器上,配置 /app/soft/spark-2.2.3-bin-hadoop2.6/conf/slaves 文件
该文件本身可能是不存在的,通过复制模板文件 slaves.template 来生成
# cd  /app/soft/spark-2.2.3-bin-hadoop2.6/conf
# cp  slaves.template  slaves

编辑生成的 /app/soft/spark-2.2.3-bin-hadoop2.6/conf/slaves 文件为如图所示

2. 于 master 机器上,配置 /app/soft/spark-2.2.3-bin-hadoop2.6/conf/spark-env.sh 文件
该文件本身可能是不存在的、通过复制 spark-env.sh.template 来生成
# cd  /app/soft/spark-2.2.3-bin-hadoop2.6/conf
# cp  spark-env.sh.template  spark-env.sh

编辑生成的 /app/soft/spark-2.2.3-bin-hadoop2.6/conf/spark-env.sh 文件
添加如下内容

export JAVA_HOME=/app/soft/jdk1.8.0_201
export SCALA_HOME=/app/soft/scala-2.12.2
export HADOOP_HOME=/app/soft/hadoop-2.6.5
export HADOOP_CONF_DIR=/app/soft/hadoop-2.6.5/etc/hadoop

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8080
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=600M
export SPARK_EXECUTOR_INSTANCES=1
export SPARK_EXECUTOR_MEMORY=600M
export SPARK_CONF_DIR=/app/soft/spark-2.2.3-bin-hadoop2.6/conf

3. 于 master 机器上,配置 /app/soft/spark-2.2.3-bin-hadoop2.6/conf/spark-defaults.conf 
该文件默认可能是不存在的、通过复制 spark-defaults.conf.template 来生成
# cd  /app/soft/spark-2.2.3-bin-hadoop2.6/conf
# cp  spark-defaults.conf.template  spark-defaults.conf

编辑生成的 /app/soft/spark-2.2.3-bin-hadoop2.6/conf/spark-defaults.conf 文件
添加如下内容
spark.driver.memory              600M

4. 于 master 机器上,Spark 同 Hive 之间,
Copy 文件 
/app/soft/apache-hive-1.2.2-bin/conf/hive-site.xml 

/app/soft/spark-2.2.3-bin-hadoop2.6/conf 
即执行命令
# cp /app/soft/apache-hive-1.2.2-bin/conf/hive-site.xml /app/soft/spark-2.2.3-bin-hadoop2.6/conf

5. 针对步骤 1、2、3、4,我们于 master 机器上执行如下命令将配置好的 Spark 安装包同步到 slave1 和 slave 2 
# scp -r ./spark-2.2.3-bin-hadoop2.6 slave1:/app/soft
# scp -r ./spark-2.2.3-bin-hadoop2.6 slave2:/app/soft

6. 于 master 机器、slave1 机器、slave2 机器,
编辑其环境变量文件 /etc/profilt 
增加如下内容

7.  对 /etc/profile 进行 source 操作,并启动 spark 
#  /app/soft/spark-2.2.3-bin-hadoop2.6/sbin/start-all.sh 
正常启动如图所示


三、测试 Spark 之 HelloWorld 

1. Spark 服务启动起来之后,
执行如下命令,本地测试 Spark 自带程序
#  cd  spark-2.2.3-bin-hadoop2.6
#  ./bin/spark-submit  --class org.apache.spark.examples.SparkPi  --master local  ./examples/jars/spark-examples_2.11-2.2.3.jar
该示例代码的执行结果是计算 PI 值,命令执行完毕后,正确输出如下图所示

猜你喜欢

转载自blog.csdn.net/jiangmengya1/article/details/87636315