HIVE元数据收集（python版本） - 代码天地

HIVE元数据收集（python版本）

其他 2020-02-25 10:34:46 阅读次数: 0

收集指标查看

数仓-HIVE元数据收集指标

一、已有工具

1、ZEUS （任务调度工具）
2、Dr-Elephant （任务调优工具）
3、Apache Griffin （数据质量工具）

二、最终落地Hbase表结构

row_key: action_id__hive_table

（调度元数据）
列族: scheduler
列: 调度名、开始时间、结束时间、action_id、所属用户

（计算资源元数据）
列族: computing
列: application_id的 map数量 reduce数量

（存储元数据）
列族: store
文件占用大小、文件量

（存储元数据）
列族: quality
列: 精准度、自定义监控值

三、收集元数据的流程

1、通过zeus元数据 mysql表（zeus_action_history）得到最近10分钟～5分钟完成的action_id，获取调度相关元数据
2、通过zeus action log 获取 yarn_job_id，从 Dr-Elephant后台数据里找到计算资源元数据。
3、通过HIVE表名，找到存储元数据
4、通过调用Apache Griffin数据质量工具的API接口，调用执行检测数据质量的脚本，将调用过的接口参数写入mysql
5、判断mysql中是否有已过半小时的的数据质量的脚本任务，如果有，获取其检测结果，写入数据质量元数据
PS. 为啥不直接获取最近5分钟完成的action_id，因为给 Dr-Elephant 5分钟缓冲时间处理计算资源元数据入库

四、Code Demo

hive-metadata-collect

五、最终落地场景

落地文章参考

阿武z

发布了53 篇原创文章 · 获赞 50 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/xw514124202/article/details/104085482

HIVE元数据收集（python版本）

数仓-HIVE元数据收集指标

HIVE元数据使用场景落地（python版本）

HIVE元数据

Hive的元数据

hive 元数据解析

Hive元数据找回

hive元数据存储

Hive元数据的解析

Hive 元数据相关信息

hive 元数据是什么

hive元数据相关信息

Hive元数据表结构

hive 元数据信息修改

HIVE-元数据存储

impala同步Hive元数据

Atlas导入Hive元数据

hive（4）——元数据概述

Hive元数据信息获取

HIVE学习记录-元数据

Hive元数据存储结构讲解与元数据操作

python：网络数据收集

python收集数据

基于MySQL元数据的Hive的安装

hive元数据和对应表说明

Hive元数据对应关系Sql

oozie开启hcatUrl依赖hive的元数据

Hive集成Mysql作为元数据

hive 元数据库报错问题

hive 元数据表理解

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)