版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_36793147/article/details/88067175
1.安装前置依赖:
安装jkd,并配置环境变量;安装完成后,输入java和javac确保正常输出提示
安装scala,并配置环境变量;安装完成后,输入scala确保能进入交互模式
2.安装spark
先在主节点上安装软件包
1.从官网下载软件包spark-2.0.2-bin-hadoop2.6.tgz
2.将软件包解压到指定目录:tar -xf spark-2.0.2-bin-hadoop2.6.tgz -C /usr/local/apps/
3.配置环境变量,添加SPARK_HOME,值设为spark安装目录;并将安装目录下的bin和sbin目录绝对路径添加到PATH变量中
4.修改conf目录下的配置文件
(1)将conf文件全部重命名,去掉template后缀
(2)配置spark-env.sh文件,添加以下内容
JAVA_HOME=/usr/local/apps/jdk1.8.0_171
SCALA_HOME=/usr/local/apps/scala-2.12.8
HADOOP_HOME=/usr/local/apps/hadoop-2.6.5
HADOOP_CONF_DIR=/usr/local/apps/hadoop-2.6.5/etc/hadoop
SPARK_DIST_CLASSPATH=$HADOOP_CLASSPATH
SPARK_MASTER_IP=master
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_MASTER_CORES=1
SPARK_WORKER_MEMORY=1g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
(3)配置slaves文件,添加从节点的ip或者主机名称
master
data01
data02
(4)配置spark-defaults.conf文件,指定主节点地址和端口号
spark.master spark://master:7077
3.将安装配置好的软件(java、scala、spark)和环境变量文件(~/.bash_profile)从主节点拷贝到从节点中
scp -r /usr/local/apps/spark-2.0.2/ hdp@data01:/usr/local/apps/
scp -r /usr/local/apps/spark-2.0.2/ hdp@data02:/usr/local/apps/
scp -r /.../java ...
scp -r /.../scala ...
scp ~/.bash_profile hdp@data01:/home/hdp/
4.启动测试器群
1.启动spark集群,在主节点操作
#切换至spark安装目录,运行命令
sbin/start-all.sh
2.测试spark运行状态
在浏览器中输入spark监控地址,http://master:8088,查看是否正常
在集群任意主机输入spark-shell,查看是否正常连接上集群