一、Apache Storm简介

Apache Storm简介

Storm是一个分布式的，可靠的，容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理，spout把数据传递给bolt， bolt要么把数据保存到某种存储器，要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。

Storm组件

在Storm集群中，有两类节点：主节点master node和工作节点worker nodes。主节点运行Nimbus守护进程，这个守护进程负责在集群中分发代码，为工作节点分配任务，并监控故障。Supervisor守护进程作为拓扑的一部分运行在工作节点上。一个Storm拓扑结构在不同的机器上运行着众多的工作节点。每个工作节点都是topology中一个子集的实现。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。

Zookeeper

Zookeeper是完成Supervisor和Nimbus之间协调的服务。而应用程序实现实时的逻辑则被封装进Storm中的“topology”。topology则是一组由Spouts（数据源）和Bolts（数据操作）通过Stream Groupings进行连接的图。

Spout

Spout从来源处读取数据并放入topology。Spout分成可靠和不可靠两种；当Storm接收失败时，可靠的Spout会对tuple（元组，数据项组成的列表）进行重发；而不可靠的Spout不会考虑接收成功与否只发射一次。而Spout中最主要的方法就是nextTuple（），该方法会发射一个新的tuple到topology，如果没有新tuple发射则会简单的返回。

Bolt

Topology中所有的处理都由Bolt完成。Bolt从Spout中接收数据并进行处理，如果遇到复杂流的处理也可能将tuple发送给另一个Bolt进行处理。而Bolt中最重要的方法是execute（），以新的tuple作为参数接收。不管是Spout还是Bolt，如果将tuple发射成多个流，这些流都可以通过declareStream（）来声明。

Stream Groupings

Stream Grouping定义了一个流在Bolt任务中如何被切分。

1. Shuffle grouping：随机分发tuple到Bolt的任务，保证每个任务获得相等数量的tuple。

2.Fields grouping：根据指定字段分割数据流，并分组。例如，根据“user-id”字段，相同“user-id”的元组总是分发到同一个任务，不同“user-id”的元组可能分发到不同的任务。

3. Partial Key grouping：根据指定字段分割数据流，并分组。类似Fields grouping。

4.All grouping：tuple被复制到bolt的所有任务。这种类型需要谨慎使用。

5. Global grouping：全部流都分配到bolt的同一个任务。明确地说，是分配给ID最小的那个task。

6. None grouping：无需关心流是如何分组。目前，无分组等效于随机分组。但最终，Storm将把无分组的Bolts放到Bolts或Spouts订阅它们的同一线程去执行（如果可能）。

7. Direct grouping：这是一个特别的分组类型。元组生产者决定tuple由哪个元组处理者任务接收。

8. Local or shuffle grouping：如果目标bolt有一个或多个任务在同一工作进程，tuples 会打乱这些进程内的任务。否则,这就像一个正常的 Shuffle grouping。

二、Zookeeper集群安装

具体参见https://blog.csdn.net/u011095110/article/details/84145164

三、下载解压storm

进入目标目录我的是cd /hadoop，然后wget下载和解压

wget http://mirrors.tuna.tsinghua.edu.cn/apache/storm/apache-storm-1.2.2/apache-storm-1.2.2.tar.gz 
tar -zxvf apache-storm-1.2.2.tar.gz

四、修改配置文件

storm.yaml

配置zookeeper集群地址，storm.local.dir和slot.ports,配置nimbus.seeds主节点地址：用于配置主控节点的地址，可以配置多个

cd /hadoop/apache-storm-1.2.2/conf
vim storm.yaml

storm.zookeeper.servers:
    - "master.hadoop"
    - "slave1.hadoop"
    - "slave2.hadoop"
storm.local.dir: "/data/hadoop/storm"
#     - "server2"
# 
# nimbus.seeds: ["host1", "host2", "host3"]
#
nimbus.seeds: ["master.hadoop"]
supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703

拷贝将配置好的storm拷贝到两个supervisor节点(slave1.hadoop和slave2.hadoop是我的两个从节点hostname）

scp -r /hadoop/apache-storm-1.2.2 [email protected]:/hadoop/
scp -r /hadoop/apache-storm-1.2.2 [email protected]:/hadoop/

对于两台supervisor node，我们额外开启JMX支持，在配置文件中加入如下配置：

supervisor.childopts: -verbose:gc -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.port=9998

主从节点机器上配置环境变量

[root@master apache-storm-0.10.0]# vim /etc/profile
export STORM_HOME=/hadoop/apache-storm-1.2.2
export PATH=$STORM_HOME/bin:$PATH
[root@master apache-storm-0.10.0]# source /etc/profile

在3台主机分别创建上面设置的数据目录，必须都要创建：

mkdir -p /data/hadoop/storm

五、启动主从节点storm

主节点启动nimubus和storm web ui

[root@master ~]# nohup storm ui > ui.out &
[root@master ~]# nohup storm nimbus > nimbus.out &

从节点启动supervisor

[root@slave1~]# nohup storm supervisor > supervisor.out &
[root@slave2 ~]# nohup storm supervisor >supervisor.out &

查看storm ui

大数据晋级之路（7）Storm安装及使用

一、Apache Storm简介

二、Zookeeper集群安装

三、下载解压storm

四、修改配置文件

五、启动主从节点storm

猜你喜欢