InputFormat的作用

InputFormat:

从文件中读取数据,转化成key-value格式。

对于常用的数据类型,hadoop已经有了这个接口的实现。

特殊文件格式的话,只有你自己知道怎么读取这种文件格式,你可以自己来定义。

method:

1. get InputSplit

框架调用此方法获得有几个逻辑块,

这样就知道需要多少个mapper了,

数据产生地点产生Mapper的实例。

2.create RecordReader

很明显此方法就是用来读记录的,调用此方法一条一条的读记录。

转化成key-value,送给Mapper。

outputFormat:

给你个key-value,怎么写出去你来决定。

如果目标目录里有已有目录了,他不希望把你已有的数据冲掉,会报错。

猜你喜欢

转载自blog.csdn.net/u011495642/article/details/83579319