大数据组件使用 总文章
MR程序运行的三种方式:
1.window本地运行MR程序:
1.IDEA 本地执行,只需要maven配置大数据组件的相关jar包即可。
2.需要:
// 指定使用 本地执行
conf.set("mapreduce.framework.name", "local")
//指定本次 MapReduce程序中 所运行主类
job.setJarByClass(xxx.class);
3.不需要 job.setJar 和 System.setProperty("HADOOP_USER_NAME", "root")
4.resources目录中 不需要 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
2.windwo推送MR程序到linux集群运行
1.IDEA 首先需要maven配置大数据组件的相关jar包。
2.需要:
// 指定使用 远程yarn框架执行
conf.set("mapreduce.framework.name", "yarn")
// 如果搭建了 hadoop HA 的话,需要指定 活动状态下的 namenode
conf.set("fs.defaultFS", "hdfs://node1:8020");
// 如果要从windows系统中运行这个job提交客户端的程序,则需要加这个跨平台提交的参数
// 配置使用跨平台提交任务,Windows开发者需要设置跨平台
conf.setBoolean("mapreduce.app-submission.cross-platform", true);
//通过这种方式设置java客户端访问hdfs的身份
System.setProperty("HADOOP_USER_NAME", "root");
// 指定jar文件,该jar文件为mapreduce程序打包后的jar文件,需要是可执行jar包,文件路径可以是本地文件路径或hdfs路径
job.setJar("D:\\daima\\项目名\\target\\项目名-1.0-SNAPSHOT.jar");
//指定本次 MapReduce程序中 所运行主类
job.setJarByClass(xxx.class);
3.resources目录中 需要 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
可在CDH的页面中点击下载hdfs、yarn的配置文件
3.linux集群运行MR程序
1.需要:
// 指定使用 远程yarn框架执行
conf.set("mapreduce.framework.name", "yarn")
// 如果搭建了 hadoop HA 的话,需要指定 活动状态下的 namenode
conf.set("fs.defaultFS", "hdfs://node1:8020");
// 如果要从windows系统中运行这个job提交客户端的程序,则需要加这个跨平台提交的参数
//通过这种方式设置java客户端访问hdfs的身份
System.setProperty("HADOOP_USER_NAME", "root");
//指定本次 MapReduce程序中 所运行主类
job.setJarByClass(xxx.class);
2.resources目录中 需要 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
可在CDH的页面中点击下载hdfs、yarn的配置文件