上一篇使用Docker搭建了Hadoop的完全分布式:使用Docker搭建Hadoop集群(伪分布式与完全分布式),本次记录搭建spark集群,使用两者同时来实现之前一直未完成的项目:网站日志流量分析系统(该系统目前用虚拟机实现了离线分析模块,实时分析由于资源问题尚未完成---这次spark集群用于该项目的实时分析)
一、根据架构图搭建基础环境
①Scala版本:2.13,下载地址:https://www.scala-lang.org/download/
②Docker版本:Docker version 19.03.5,下载地址:https://docs.docker.com/install/linux/docker-ce/centos/
③搭建zookeeper集群(版本:3.4.14),下载地址:http://mirror.bit.edu.cn/apache/zookeeper/
④搭建hadoop集群(版本:2.7.7),下载地址:https://archive.apache.org/dist/hadoop/common/
⑤安装flume(版本:1.9.0),下载地址:http://flume.apache.org/download.html
⑥搭建Kafka集群(版本:2.4.0),下载地址:http://kafka.apache.org/downloads
⑦搭建HBase集群(版本:0.98.17),下载地址:https://archive.apache.org/dist/hbase/
⑧搭建Spark集群(版本:2.4.4),下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
基于以上环境来搭建Spark集群