使用Docker搭建Spark集群(用于实现网站流量实时分析模块) 使用Docker搭建Hadoop集群(伪分布式与完全分布式) 网站日志流量分析系统

  上一篇使用Docker搭建了Hadoop的完全分布式:使用Docker搭建Hadoop集群(伪分布式与完全分布式),本次记录搭建spark集群,使用两者同时来实现之前一直未完成的项目:网站日志流量分析系统(该系统目前用虚拟机实现了离线分析模块,实时分析由于资源问题尚未完成---这次spark集群用于该项目的实时分析)

一、根据架构图搭建基础环境

  ①Scala版本:2.13,下载地址:https://www.scala-lang.org/download/

  ②Docker版本:Docker version 19.03.5,下载地址:https://docs.docker.com/install/linux/docker-ce/centos/

  ③搭建zookeeper集群(版本:3.4.14),下载地址:http://mirror.bit.edu.cn/apache/zookeeper/

  ④搭建hadoop集群(版本:2.7.7),下载地址:https://archive.apache.org/dist/hadoop/common/

  ⑤安装flume(版本:1.9.0),下载地址:http://flume.apache.org/download.html

  ⑥搭建Kafka集群(版本:2.4.0),下载地址:http://kafka.apache.org/downloads

  ⑦搭建HBase集群(版本:0.98.17),下载地址:https://archive.apache.org/dist/hbase/

  ⑧搭建Spark集群(版本:2.4.4),下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz

 基于以上环境来搭建Spark集群

猜你喜欢

转载自www.cnblogs.com/rmxd/p/12103447.html