Storm平台监控方案[ 上 ]

企业开发 2018-05-10 02:47:54 阅读次数: 1

监控的初衷

社区版的storm除去storm UI可以提供一点信息外，实际上任务完全运行在一个黑盒子里，不仅不知道任务的运行情况，即使任务有问题时也无法及时通知用户来处理，事后排查问题又非常困难。为了解决这些问题，需要把任务运行的情况掌握起来。

监控的维度

任务维度监控

组件处理耗时，单位:毫秒
任务组件tps
worker处理耗时,单位:毫秒
worker tps
worker.capacity【(number executed * average execute latency) / measurement time】

worker维度监控

1分钟内parnew gc 平均耗时,单位:毫秒
1分钟内concurrentmarksweep gc 平均耗时单位:毫秒
1分钟内parnew gc次数
1分钟内concurrentmarksweep gc次数
老年代内存使用比率
gc吞吐,计算公式：(runTime - totalGCTime) / runTime
worker线程活跃数
worker日志文件个数
worker线程峰值
worker文件大小
worker运行时长，单位：天
worker进程使用的文件句柄数
worker进程使用的cpu
worker进程使用的swap
worker进程user使用的cpu
worker进程system使用的cpu
worker内组件TPS监控

自助定问题

jstack定时生成并提供下载
手动jmap堆信息并提供下载

管理员维度

集群tps
集群emit量
主机tps
主机emit量

灵活告警

针对用户的告警
邮件+短信

常见问题汇总

内存泄漏
线程泄漏
连接泄漏
任务并发设置不合理，worker不均衡
不合理的日志输出
spout阻塞导致ticktuple停止
不合理的slot数导致cpu都用来gc
内核问题导致进程夯住
网络连接随机端口导致worker端口被占
woker进程死锁
下游系统慢导致反压队列爆满而OOM

监控数据效果图

猜你喜欢

转载自woodding2008.iteye.com/blog/2326358

Storm平台监控方案[ 上 ]

Storm平台监控方案[ 下 ]

构建高大上的MySQL监控平台

视频监控业务上云方案解析

Storm整理(上)

DIY一个前端监控平台（上）

Prometheus + Granafa 构建高大上的MySQL监控平台

解决storm集群上的nimbus和supervisor结点无缘无故自动停止的方案

Android修炼系列（33），内存监控技术方案（上）

Jconsole上监控Tomcat

linux上对服务监控

jconsole 监控上tomcat

Prometheus监控服务-上

内存监控工具（上）

Ionic 跨平台开发之Safari上的调试方案

数据中台建设方案-基于大数据平台(上)

绘制优化方案(上)

storm ui上emit和transferred的区别

Linux上Storm集群环境的搭建

storm 在redhat上的安装配置

jprofiler监控linux上tomcat

linux上zabbix监控mysql

nagios监控window主机(上)

Zabbix 上Windows性能监控

Flutter 上的内存泄漏监控

监控平台实施方案

搭建一个通用监控告警平台，架构上需要有哪些设计

微信公众号平台返回上一页解决方案

CentOS 7上的性能监控工具

使用Netsil监控Kubernetes上的微服务

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)