点击流分析
首先通过flume从web中获得日志
放到hdfs通过m (之所以不直接用hive来处理
是因为一些结构比较复杂的数据,hive不大容易处理
mr 适合处理复杂的数据,比如杂乱的shuju
而hive比较适合处理有结构有组织的数据,比如数据库中的数据,所以首先用mr处理成比较干净的数据
)r清洗,干净数据放到hive中etl(extract transform load) 成报表
报表 sqoop->mysql-》echart
任务调度 azakban协调全部
点击流分析
首先通过flume从web中获得日志
放到hdfs通过m (之所以不直接用hive来处理
是因为一些结构比较复杂的数据,hive不大容易处理
mr 适合处理复杂的数据,比如杂乱的shuju
而hive比较适合处理有结构有组织的数据,比如数据库中的数据,所以首先用mr处理成比较干净的数据
)r清洗,干净数据放到hive中etl(extract transform load) 成报表
报表 sqoop->mysql-》echart
任务调度 azakban协调全部