FileInputFormat.setInputPaths(job, input1, input2);
在读取文件时候,默认先读单个大文件所在的路径(一次性读清该文件下所有文件),后读小文件所在路径。
写协同过滤时候,想让
setInputPaths方法先读第一个输入路径input1,再读第二个输出路径input2
就算把文件位置交换,读取的顺序还是错误
public static class myMapper extends Mapper<LongWritable, Text, Text, Text> { @SuppressWarnings("rawtypes") private final static Map<Integer, List> cooccurrenceMatrix = new HashMap<Integer, List>();// 同现矩阵 Text k = new Text(); Text v = new Text(); @SuppressWarnings("unchecked") @Override protected void map(LongWritable key, Text values, Mapper<LongWritable, Text, Text, Text>.Context context) throws IOException, InterruptedException { String[] lists = values.toString().split("[\t,]"); // 同现矩阵时候,v1存的是书本id 书本id v2存的是权值。 // 用户评分矩阵,v1存的是书本号 v2存的是用户id 用户评分 String[] v1 = lists[0].split(":"); String[] v2 = lists[1].split(":"); if (v1.length > 1) {// 需要先读到cooccurrence同现矩阵 int itemID1 = Integer.parseInt(v1[0]);// 横轴 int itemID2 = Integer.parseInt(v1[1]);// 纵轴 int num = Integer.parseInt(v2[0]);// 权重 List<Cooccurrence> list = null; if (!cooccurrenceMatrix.containsKey(itemID1)) list = new ArrayList<Cooccurrence>(); else list = cooccurrenceMatrix.get(itemID1); list.add(new Cooccurrence(itemID1, itemID2, num)); cooccurrenceMatrix.put(itemID1, list);// 以横坐标书号为key 存储同现矩阵 } if (v2.length > 1) {// userVector用户评价矩阵 int itemID = Integer.parseInt(v1[0]);// 物品id String userID = v2[0];// 用户id double pref = Double.parseDouble(v2[1]);// 用户评分 k.set(userID); if (cooccurrenceMatrix.containsKey(itemID)) { Iterator<Cooccurrence> iterator = cooccurrenceMatrix.get( itemID).iterator(); while (iterator.hasNext()) { Cooccurrence co = iterator.next(); v.set(co.getItemID2() + "," + pref * co.getNum()); context.write(k, v); } } } } }
百度了半天没结果,然后自己琢磨。
自己捣鼓了半天后,把大文件进行了切块。然后读取正确。
ok,上结论:
FileInputFormat.setInputPaths(job, input1, input2);在读取文件时候,默认先读单个大文件所在的路径(一次性读清),后读
小文件所在路径。
协同过滤的代码参考的是https://blog.csdn.net/pang_hailong/article/details/53046330?locationNum=12&fps=1
开始时候还不明白为什么把step3里边把同现矩阵重写一遍,然后分析70m的豆瓣数据时候看了step2和step3_2的区别,就是将数据进行了切割,保证了先读step3_1里边的数据,后读step3_2里边的数据。
就是这样,小萌新第一次写博客,请大神们多多指教。