Hadoop DistributedCache

Hadoop的DistributedCache,可以把HDFS中的文件加载到DistributedCache中,当我们需要这些文件时,DistributedCache自动把这些文件下载到集群中节点的本地存储上(mapred.local.dir)。这样就不需要一一布置第三方的Jar包,并且Hadoop集群增加节点也不需要再上传了。

此外DistributedCache对于Read-Only的数据(即边数据)也有用处,这点可以扩展我们编写MapReduce程序的思路。

 

关于的参考可见:

1、http://hadoop.apache.org/common/docs/r0.20.2/api/org/apache/hadoop/filecache/DistributedCache.html

2、Hadoop 权威指南 P253-256

 

猜你喜欢

转载自irwenqiang.iteye.com/blog/1542366