hive本身只是在mr上封装,应用场景自然更局限,不可能满足所有需求
有些场景是不能用hive来实现,就需要mr来实现。
结构复杂的日志文件,首先要经过ETL处理(使用mapreduce),得到的数据再有hive处理比较合适。直接让hive处理结构复杂的数据估计很难处理。
业务比较复杂的,还是必须写mapreduce才能实现。
Hive目前底层还是用MapReduce,以后可能会用Spark,Tez。Hive差不多是一个查询接口,你的SQL语句还是会翻译成MapReduce任务的,你用explain就可以看到这些任务的执行计划。
hive+transform约等于mr。