版权声明:本文为博主原创文章,大家可以转载分享学习 https://blog.csdn.net/qq_31469369/article/details/84559801
mapreduce 计算框架 原理分析
1. mapreduce是一个海量数据的计算框架
**这个框架解决了以下问题:**
基于一个多线程的模型 区别spark多进程
- 数据分布存储
- 作业调度
- 容错
- 机器间通信
map: 把复杂的问题分解成简单的问题
reduce:
2.mapreduce物理配置
合适的slot个数
-单记map reduce个数
-mapreduce.tasktracker.map,maximum(默认2)
-mapreduce.tasktracker.tasks.reduce.maxmum(默认2)
-内存限制
-cpu核数-1(一个进程tasktracker )
-多机集群分离
磁盘状况
-合适的单机多磁盘
-mapred.local.dir和dfs.data.dir
注意点:
map个数为split的份数
压缩文件不可切分
非压缩文件可以切分
dfs.block.size决定block的大小 hadoop配置文件中配置