参考网址:http://spark.apache.org/docs/latest/building-spark.html
由于spark对hadoop版本有一定的依赖,所以建议使用源码来编译,本次编译的版本为:spark2.2。0
由于这次编译需要CDH的HADOOP依赖,解压spark的源码包,编辑pom.xml文件, 在repositories节点 加入如下配置:
<repository>
<id>cloudera</id>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
准备:Maven 3.3.9、Java 8+。注意,从2.2.0开始,spark已经移除了java 7
编译命令:mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
简单说说参数代表的意思
-Pyarn:表示需要将spark作业提交至yarn
-Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0:这里是指定了hadoop的版本
-Phive -Phive-thriftserver:需要支持hive的jcbc
(如果需要其他参数,可以参考官网)
由于spark对hadoop版本有一定的依赖,所以建议使用源码来编译,本次编译的版本为:spark2.2。0
由于这次编译需要CDH的HADOOP依赖,解压spark的源码包,编辑pom.xml文件, 在repositories节点 加入如下配置:
<repository>
<id>cloudera</id>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
准备:Maven 3.3.9、Java 8+。注意,从2.2.0开始,spark已经移除了java 7
编译命令:mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
简单说说参数代表的意思
-Pyarn:表示需要将spark作业提交至yarn
-Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0:这里是指定了hadoop的版本
-Phive -Phive-thriftserver:需要支持hive的jcbc
(如果需要其他参数,可以参考官网)