读书笔记1：Hadoop初始及单机版和集群版的安装

读书笔记：Hadoop 初始及单机版和集群版的安装

1， hadoop 的第一个程序（统计文档中个单词出现的次数）

public class WordCount extends Configured implements Tool{

public static class MapClass extends MapReduceBase implements Mapper<LongWritable,Text,Text,IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(LongWritable key,Text value,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{

String line = value.toString();

StringTokenizer itr = new StringTokenizer(line);//使用空格进行分词

while(itr.hasMoreTokens()){

word.set(itr.nextToken());//把Token放入Text对象中

output.collect(word,one);

}

public static class Reduce extends MapReduceBase implements Reducer<Text,IntWritable,Text,IntWritable>{

public void reduce(Text key,Iterator<IntWritable> values,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{

int sum = 0;

while(values.hasNext()){

sum+=values.next().get();

}

output.collect(key,new IntWritable(sum));//输出每个Token的统计结果

}

2，初始 hadoop

（1） NameNode（名字节点）

它位于HDFS 的主端，它指导从端的 DataNode 执行底层 I/O 任务。运行 NameNode 会消耗大量的内存和 I/O 资源。索引 NameNode 服务器不会同时是 DataNode 或者 TaskTracker 。但是他有一个负面的影响，就是 Hadoop 集群的单点失效。

（2） DateNode（数据节点）

每个集群上的节点都会驻留一个DataNode 的守护进程，来执行分布式文件系统的繁重工作。 NameNode 告知客户端每个数据块驻留在哪个 DataNode 里，那么客户端直接于 DataNode 进行通信，而 DataNode 之间会相互通信，而且 DataNode 不断向 NameNode 报告。

（3） Secondary NameNode（次名字节点）

SNN是一个用于检测 HDFS 集群状态的辅助守护进程，像 NameNode 一样， SNN 通常也是独占一台服务器，该服务器不会运行其他的 DataNode 或是 TaskTracker 守护进程。 NameNode 是 Hadoop 集群的单一故障点，而 SNN 快照可以有助于减少停机的时间降低数据丢失的风险。

（4） JobTracker（作业跟踪节点）

JobTracker守护进程是应用程序和 Hadoop 之间的纽带，一旦提交代码到集群上， JobTracker 会确定一系列的执行计划，如果任务失败， JobTracker 会自动重启。每个 Hadoop 集群只有一个 JobTracker 守候进程，运行在服务器集群的主节点上。

（5） TaskTracker（任务跟踪节点）

TaskTracker管理各个任务在每个从节点上的运行情况。

3， hadoop 的安装

（1）单机版hadoop 的安装（请参见单机版hadoop 的安装 .doc）

（2）集群版hadoop 的安装（请参见单机版hadoop 的安装 .doc）

注：以下是SSH 的安装

<1>为 hadoop 集群安装 SSH

安装hadoop 集群时，需要专门指定一个服务器作为主节点，这个服务器会常驻 NameNode 和 JobTracker 守护进程，它也将作为一个基站，负责联络并激活所有从节点上的 DataNode 和 TaskTracker 。因此我们要为主节点定义一种手段，使他能够远程的访问到集群中的每个节点。因此， Hadoop 使用了无口令的 SSH 协议。

<2>定义一个公共账号

hadoop-user

<3>SSH的安装

·切换到root 用户 su root

·安装SSH sudo apt-get install ssh

· ubuntu服务器上生成私钥和公钥 ssh-keygen

显示：Enter file in which to save the key (/root/.ssh/id_rsa):

这里是问你私钥和公钥存放在什么地方，回车表示默认

显示：Created directory '/root/.ssh'.

这里是让你设置密码，输入自己的密码，一定要记住啊。（4 位以上）

显示：Enter same passphrase again

再次输入密码，然后回车

显示：

Your identification has been saved in /root/.ssh/id_rsa.

你的私钥存放位置/root/.ssh/id_rsa.

Your public key has been saved in /root/.ssh/id_rsa.pub.

你的公钥存放位置/root/.ssh/id_rsa.pub

然后地下就是密码的信息。

读书笔记1：Hadoop初始及单机版和集群版的安装

猜你喜欢