有Hive之后,为何还要学mapreduce

hive本身只是在mr上封装,应用场景自然更局限,不可能满足所有需求

有些场景是不能用hive来实现,就需要mr来实现。

结构复杂的日志文件,首先要经过ETL处理(使用mapreduce),得到的数据再有hive处理比较合适。直接让hive处理结构复杂的数据估计很难处理。

业务比较复杂的,还是必须写mapreduce才能实现。

Hive目前底层还是用MapReduce,以后可能会用Spark,Tez。Hive差不多是一个查询接口,你的SQL语句还是会翻译成MapReduce任务的,你用explain就可以看到这些任务的执行计划。

hive+transform约等于mr。

 

猜你喜欢

转载自blog.csdn.net/zhanaolu4821/article/details/81871154