上一篇使用Docker搭建了Hadoop的完全分布式：使用Docker搭建Hadoop集群(伪分布式与完全分布式)，本次记录搭建spark集群，使用两者同时来实现之前一直未完成的项目：网站日志流量分析系统（该系统目前用虚拟机实现了离线分析模块，实时分析由于资源问题尚未完成---这次spark集群用于该项目的实时分析）

一、根据架构图搭建基础环境

　　①Scala版本：2.13，下载地址：https://www.scala-lang.org/download/

　　②Docker版本：Docker version 19.03.5，下载地址：https://docs.docker.com/install/linux/docker-ce/centos/

　　③搭建zookeeper集群（版本：3.4.14），下载地址：http://mirror.bit.edu.cn/apache/zookeeper/

　　④搭建hadoop集群（版本：2.7.7），下载地址：https://archive.apache.org/dist/hadoop/common/

　　⑤安装flume（版本：1.9.0），下载地址：http://flume.apache.org/download.html

　　⑥搭建Kafka集群（版本：2.4.0），下载地址：http://kafka.apache.org/downloads

　　⑦搭建HBase集群（版本：0.98.17），下载地址：https://archive.apache.org/dist/hbase/

　　⑧搭建Spark集群（版本：2.4.4），下载地址：https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz

　基于以上环境来搭建Spark集群

使用Docker搭建Spark集群（用于实现网站流量实时分析模块）使用Docker搭建Hadoop集群(伪分布式与完全分布式) 网站日志流量分析系统

一、根据架构图搭建基础环境

猜你喜欢

使用Docker搭建Spark集群（用于实现网站流量实时分析模块） 使用Docker搭建Hadoop集群(伪分布式与完全分布式) 网站日志流量分析系统

一、根据架构图搭建基础环境

猜你喜欢

使用Docker搭建Spark集群（用于实现网站流量实时分析模块）使用Docker搭建Hadoop集群(伪分布式与完全分布式) 网站日志流量分析系统