数据源下载连接
拆分数据
现有历史数据,一类数据在一个文件中。这个文件中包含了多天、多月、甚至多年的数据。生产系统中需要将这些数据分区存储,即一天一个分区。当天的数据放在当天的分区中。
要实现这个功能需要将数据进行拆分。遍历数据中的每一条数据,判断每条数据的所属日期(数据中包含日期格式的数据),将相同日期的数据存放在一个文件中,文件名称以日期为文件名。
实现方法:依次读取数据中的每条数据,获取数据中的日期字段,字段格式为“yyyy-MM-dd HH:mm:ss”。截取出字段中的日期“yyyy-MM-dd”,将相同日期的数据存放在一个文件中,文件名称以日期为文件名。
我对该数据进行拆分
通过MapReduce进行对数据拆分
map
import org.apache.hadoop.io.LongWritable;
import org