MapReduce优化记录

1、大量小文件，优化方法

　　问题描述：默认情况下 TextInputformat 对任务的切片机制是按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个 maptask，这样如果有大量小文件，就会产生大量的maptask，处理效率极其低下。

　　优化策略：（1）最好的办法，在数据处理系统的最前端（预处理/采集），将小文件先合并成大文件，再上传到 HDFS 做后续分析。　　　　　　　　

　　　　　　　　（2）补救措施：如果已经是大量小文件在 HDFS 中了，可以使用另一种 InputFormat来做切片（CombineTextInputFormat），它的切片逻辑跟 TextFileInputFormat 不同：它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个 maptask。

　　　　　　　　（3）优先满足最小切片大小，不超过最大切片大小

　　　　　　　　　　　　　　CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m

　　　　　　　　　　　　　　CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m

　　实现步骤：　　　　　　// 如果不设置 InputFormat,它默认用的是 TextInputFormat.class

　　　　　　　　　　　　　　job.setInputFormatClass(CombineTextInputFormat.class)
　　　　　　　　　　　　　　CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
　　　　　　　　　　　　　　CombineTextInputFormat.setMinInputSplitSize(job, 2097152);// 2m

猜你喜欢