一、配置windows上的hadoop环境变量
1、将hadoop压缩包解压至任意位置,路径最好不要带中文或空格
2、将Window编译后的hadoop文件放到解压出来的hadoop文件夹的bin目录下
3、在环境变量中配置HADOOP_HOME
5、在环境变量的PATH中添加 %HADOOP_HOME%\bin 和 %HADOOP_HOME%\sbin
二、Esclipse上的hadoop插件安装
1、将插件jar包丢到Esclipse文件夹下的plugins文件夹下
2、编辑linux虚拟机上的hadoop的配置文件 hdfs-site.xml 添加 dfs.permissions 配置
3、esclipse上配置hadoop路径
4、在虚拟机上开启hadoop 执行start-all.sh并在esclipse中开启map/reduce视图
5、esclipse上配置hadoop链接
配置完成如果无误左侧会出现DFSLocation,可以直接查看连接的hadoop上的文件
三、进行mapreduce开发
1、编造数据,并将数据上传到hadoop上
使用math里的random和一些简单的条件判断语句就可以伪造好大量数据,因为配置好了esclipse上的hadoop插件,不需要逐一上传,DFSLocation下右键文件夹,upload directory to dfs即可
注意写入数据的时候加上
BufferedWriter writer=new BufferedWriter(new OutputStreamWriter(out,"UTF-8"));
保证所有文本都是utf-8格式,不然会出现乱码,esclipse的编码也改为utf-8格式
2、进行map/reduce的开发
新建项目时选择新建mapper/reducer project ,esclipse 会自动将hadoop相关jar包给我们导入
①、mapper的开发
新建一个mapper
②、Reducer的开发
③、Driver的开发
④、执行程序,选择run on hadoop
执行结果如下