为了方便管理日志,记录Spark程序运行结果,需要进行historyServer配置
1、常规单节点配置
第一步:
cp spark-defaults.conf.template spark-defaults.conf 在文件里面添加如下内容: spark.eventLog.enabled true spark.eventLog.dir hdfs://hadoop06:9000/sparklog
第二步:
在spark-evn.sh 的文件里面添加如下内容: export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=30 -Dspark.history.fs.logDirectory=hdfs://hadoop06:9000/sparklog"
第三步:
在启动HistorServer服务之前 hdfs://hadoop06:9000/sparklog 目录要提前创建
2、HA高可用配置
第一步:
cp spark-defaults.conf.template spark-defaults.conf 在文件里面添加如下内容: spark.eventLog.enabled true spark.eventLog.dir hdfs://myha01/sparklog 其中myhao1是dfs-site.xml的nameservice的配置名字
第二步:
在spark-evn.sh 的文件里面添加如下内容: export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=30 -Dspark.history.fs.logDirectory=hdfs://myha01/sparklo g"
第三步:
在启动HistorServer服务之前 hdfs://hadoop06:9000/sparklog 目录要提前创建
使用:
启动前需要先启动zookeeper和HDFS、YARN。
在任意节点启动start-history-server.sh (以hadoop03为例),在对应的节点的UI :http://hadoop03:18080即可查看
如图界面,以及运行Spark任务后显示。