Esclipse上的hadoop插件及mapreduce应用开发

一、配置windows上的hadoop环境变量

1、将hadoop压缩包解压至任意位置,路径最好不要带中文或空格

2、将Window编译后的hadoop文件放到解压出来的hadoop文件夹的bin目录下

3、在环境变量中配置HADOOP_HOME

5、在环境变量的PATH中添加 %HADOOP_HOME%\bin 和 %HADOOP_HOME%\sbin

二、Esclipse上的hadoop插件安装

1、将插件jar包丢到Esclipse文件夹下的plugins文件夹下

2、编辑linux虚拟机上的hadoop的配置文件 hdfs-site.xml 添加 dfs.permissions 配置

3TOBAe.png

3、esclipse上配置hadoop路径

3TOT9s.png

4、在虚拟机上开启hadoop 执行start-all.sh并在esclipse中开启map/reduce视图

3TX93R.png

5、esclipse上配置hadoop链接

3TjDSA.md.png

配置完成如果无误左侧会出现DFSLocation,可以直接查看连接的hadoop上的文件

3TjWFg.png

三、进行mapreduce开发

1、编造数据,并将数据上传到hadoop上

使用math里的random和一些简单的条件判断语句就可以伪造好大量数据,因为配置好了esclipse上的hadoop插件,不需要逐一上传,DFSLocation下右键文件夹,upload directory to dfs即可

注意写入数据的时候加上

 BufferedWriter writer=new BufferedWriter(new OutputStreamWriter(out,"UTF-8")); 

保证所有文本都是utf-8格式,不然会出现乱码,esclipse的编码也改为utf-8格式

3TvLut.png

2、进行map/reduce的开发

新建项目时选择新建mapper/reducer project ,esclipse 会自动将hadoop相关jar包给我们导入

①、mapper的开发

新建一个mapper

3Txa2d.png

②、Reducer的开发

37S3tO.png

③、Driver的开发

37SWBq.png

④、执行程序,选择run on hadoop

执行结果如下

37ppCD.png

猜你喜欢

转载自www.cnblogs.com/qilingfeng/p/12709213.html