Storm学习 day01

今天，我开始了Storm的学习。学习了Storm是什么、Storm与Hadoop的区别、应用场景和案例、特点、编程模型、核心组件、架构图、环境准备、分布式环境搭建、查看log日志、命令行操作、常用API介绍、数据准备、网站日志案例、读数据思考、分组策略-理论篇、分组策略-实践篇、并发度、WordCount案例、感受分组策略。
总结一下：
1.Storm是什么？
Storm是一个分布式计算框架，主要使用Clojure与Java语言编写，最初是由Nathan Marz带领Backtype公司团队创建，在Backtype公司被Twitter公司收购后进行开源。最初的版本是在2011年9月17日发行，版本号0.5.0。
2013年9月，Apache基金会开始接管并孵化Storm项目。Apache Storm是在Eclipse Public License下进行开发的，它提供给大多数企业使用。经过1年多时间，2014年9月，Storm项目成为Apache的顶级项目。目前，Storm的最新版本1.2.x。
Storm是一个免费开源的分布式实时计算系统。Storm能轻松可靠地处理无界的数据流，就像Hadoop对数据进行批处理。
2.Storm与Hadoop的区别
1）Storm用于实时计算，Hadoop用于离线计算。
2）Storm处理的数据保存在内存中，源源不断；Hadoop处理的数据保存在文件系统中，一批一批处理。
3）Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中。
4）Storm与Hadoop的编程模型相似。
（1）hadoop相关名称
Job：任务名称
JobTracker：项目经理（JobTracker对应于NameNode；JobTracker是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。）
TaskTracker：开发组长（TaskTracker对应于DataNode；TaskTracker是运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。）
Child：负责开发的人员
Mapper/Reduce：开发人员中的两种角色，一种是服务器开发、一种是客户端开发
（2）storm相关名称
Topology：任务名称
Nimbus：项目经理
Supervisor：开组长
Worker：开发人员
Spout/Bolt：开发人员中的两种角色，一种是服务器开发、一种是客户端开发
3.Storm应用场景及行业案例
Storm用来实时计算源源不断产生的数据，如同流水线生产。
1）运用场景
Storm能用到很多场景中，包括：实时分析、在线机器学习、连续计算等。
（1）推荐系统：实时推荐，根据下单或加入购物车推荐相关商品。
（2）金融系统：实时分析股票信息数据。
（3）预警系统：根据实时采集数据，判断是否到了预警阈值。
（4）网站统计：实时销量、流量统计，如淘宝双11效果图。
2）典型案列
（1）京东-实时分析系统：实时分析用户的属性，并反馈给搜索引擎。
最初，用户属性分析是通过每天在云上定时运行的MR job来完成的。为了满足实时性的要求，希望能够实时分析用户的行为日志，将最新的用户属性反馈给搜索引擎，能够为用户展现最贴近其当前需求的结果。
（2）携程-网站性能监控：实时分析系统监控携程网的网站性能。
利用HTML5提供的performance标准获得可用的指标，并记录日志。Storm集群实时分析日志和入库。使用DRPC聚合成报表，通过历史数据对比等判断规则，触发预警事件。
（3）淘宝双十一：实时统计销售总额。
4.Storm特点
1）适用场景广泛：Storm可以适用实时处理消息、更新数据库、持续计算等场景。
2）可伸缩性高：Storm的可伸缩性可以让Storm每秒处理的消息量达到很高。扩展一个实时计算任务，你所需要做的就是加机器并且提高这个计算任务的并行度。Storm使用Zookeeper来协调机器内的各种配置使得Storm的集群可以很容易的扩展。
3）保证无数据丢失：Storm保证所有的数据都被处理。
4）异常健壮：Storm集群非常容易管理，轮流重启节点不影响应用。
5）容错性好：在消息处理过程中出现异常，Storm会进行重试。
5.Storm编程模型
1）元组（Tuple）
元组（Tuple），是消息传递的基本单元，是一个命名的值列表，元组中的字段可以是任何类型的对象。Storm使用元组作为其数据模型，元组支持所有的基本类型、字符串和字节数组作为字段值，只要实现类型的序列化接口就可以使用该类型的对象。元组本来应该是一个key-value的Map，但是由于各个组件间传递的元组的字段名称已经事先定义好，所以只要按序把元组填入各个value即可，所以元组是一个value的List。
2）流（Stream）
流是Storm的核心抽象，是一个无界的元组系列。源源不断传递的元组就组成了流，在分布式环境中并行地进行创建和处理。
3）水龙头（Spout）
Spout是拓扑的流的来源，是一个拓扑中产生源数据流的组件。通常情况下，Spout会从外部数据源中读取数据，然后转换为拓扑内部的源数据。
Spout可以是可靠的，也可以是不可靠的。如果Storm处理元组失败，可靠的Spout能够重新发射，而不可靠的Spout就尽快忘记发出的元组。
Spout可以发出超过一个流。
Spout的主要方法是nextTuple()。NextTuple()会发出一个新的Tuple到拓扑，如果没有新的元组发出，则简单返回。
Spout的其他方法是ack()和fail()。当Storm检测到一个元组从Spout发出时，ack()和fail()会被调用，要么成功完成通过拓扑，要么未能完成。Ack()和fail()仅被可靠的Spout调用。
IRichSpout是Spout必须实现的接口。
4）转接头（Bolt）
在拓扑中所有处理都在Bolt中完成，Bolt是流的处理节点，从一个拓扑接收数据，然后执行进行处理的组件。Bolt可以完成过滤、业务处理、连接运算、连接与访问数据库等任何操作。
Bolt是一个被动的角色，其接口中有一个execute()方法，在接收到消息后会调用此方法，用户可以在其中执行自己希望的操作。
Bolt可以完成简单的流的转换，而完成复杂的流的转换通常需要多个步骤，因此需要多个Bolt。
Bolt可以发出超过一个的流。
5）拓扑（Topology）
拓扑（Topology）是Storm中运行的一个实时应用程序，因为各个组件间的消息流动而形成逻辑上的拓扑结构。
把实时应用程序的运行逻辑打成jar包后提交到Storm的拓扑（Topology）。Storm的拓扑类似于MapReduce的作业（Job）。其主要的区别是，MapReduce的作业最终会完成，而一个拓扑永远都在运行直到它被杀死。一个拓扑是一个图的Spout和Bolt的连接流分组。
6.Storm核心组件
nimbus是整个集群的控管核心，负责topology的提交、运行状态监控、任务重新分配等工作。
zk就是一个管理者，监控者。
总体描述：nimbus下命令（分配任务），zk监督执行（心跳监控，worker、supurvisor的心跳都归它管），supervisor领旨（下载代码），招募人马(创建worker和线程等)，worker、executor就给我干活！task就是具体要干的活。
1）主控节点与工作节点
Storm集群中有两类节点：主控节点（Master Node）和工作节点（Worker Node）。其中，主控节点只有一个，而工作节点可以有多个。
2）Nimbus进程与Supervisor进程
主控节点运行一个称为Nimbus的守护进程类似于Hadoop的JobTracker。Nimbus负责在集群中分发代码，对节点分配任务，并监视主机故障。
每个工作节点运行一个称为Supervisor的守护进程。Supervisor监听其主机上已经分配的主机的作业，启动和停止Nimbus已经分配的工作进程。
3）流分组（Stream grouping）
流分组，是拓扑定义中的一部分，为每个Bolt指定应该接收哪个流作为输入。流分组定义了流/元组如何在Bolt的任务之间进行分发。
Storm内置了8种流分组方式。
4）工作进程（Worker）
Worker是Spout/Bolt中运行具体处理逻辑的进程。一个worker就是一个进程，进程里面包含一个或多个线程。
5）执行器（Executor）
一个线程就是一个executor，一个线程会处理一个或多个任务。
6）任务（Task）
一个任务就是一个task。
7.Storm读取文件思考
1）spout数据源：数据库、文件、MQ（比如：Kafka）
2）数据源是数据库：只适合读取数据库的配置文件
3）数据源是文件：只适合测试、讲课用demo（因为集群是分布式集群）
4）企业产生的log文件处理步骤：
（1）读出内容写入MQ
（2）Storm再处理
8.分组策略（Stream Grouping）
stream grouping用来定义一个stream应该如何分配给Bolts上面的多个Executors（多线程、多并发）。
Storm里面有7种类型的stream grouping。
1、Shuffle Grouping
随机分组，轮询，平均分配。随机派发stream里面的tuple，保证每个bolt接收到的tuple数目大致相同。
2、Fields Grouping
按字段分组，比如按userid来分组，具有同样userid的tuple会被分到相同的Bolts里的一个task，而不同的userid则会被分配到不同的bolts里的task。
3、All Grouping
广播发送，对于每一个tuple，所有的bolts都会收到。
4、Global Grouping
全局分组，这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。
5、Non Grouping
不分组，这stream grouping个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果。在多线程情况下不平均分配。
6、Direct Grouping
直接分组，这是一种比较特别的分组方法，用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的task的id （OutputCollector.emit方法也会返回task的id）。
7、Local or shuffle grouping
如果目标bolt有一个或者多个task在同一个工作进程中，tuple将会被随机发送给这些tasks。否则，和普通的Shuffle Grouping行为一致。
9.并发度
并发度：用户指定一个任务，可以被多个线程执行，并发度的数量等于线程executor的数量。
Task就是具体的处理逻辑对象，一个executor线程可以执行一个或多个tasks，但一般默认每个executor只执行一个task，所以我们往往认为task就是执行线程，其实不是。
Task代表最大并发度，一个component的task数是不会改变的，但是一个componet的executer数目是会发生变化的（storm rebalance命令），task数>=executor数，executor数代表实际并发数。

猜你喜欢