阿武的博客文档索引

1、Hadoop组件安装

搭建CDH 阿里云 (Step 1: 启动hdfs)
搭建CDH 阿里云 (Step 2: 启动yarn)
搭建CDH 阿里云 (Step 3: 搭建Hive)
Hive On Spark搭建(cdh)

2、元数据

数据仓库-元数据简单总结
元数据-血缘分析-应用场景总结
数据资产管理-简单总结
数仓-HIVE元数据收集指标
HIVE元数据收集(python版本)
HIVE元数据使用场景落地(python版本)
HIVE 字段级血缘分析 写入Neo4j

3、JOB计算管理

Dr Elephant(HIVE JOB监控调优)安装使用
通过 Dr-Elephant 监控异常HIVE任务并报警
Dr-Elephant 丢失部分 YARN JOB
获取YARN上执行时间最长的JOB列表,并查看是否存在数据倾斜
HIVE SQL数据倾斜情况以及解决办法
MR过程
Spark-DAGScheduler之Job的提交划分Stage

4、HDFS存储管理

HIVE表 占用HDFS空间 TOP表查询
HDFS文件压缩工具,支持各种压缩格式

5、集群运维

跑满YARN资源-优化方向
YARN队列资源、NameNode等数据指标监控
YARN集群资源如何分配
YARN假死处理(JOB超过10000个)

6、数据仓库建模

数据仓库是什么,如何建立(总结)
数据仓库解决问题和分层设计好处
一致性维度表 设计思路
一致性事实表 设计思路

7、调度工具

zeus调度工具启动慢(zeus_action数据量太大)
一、Hera调度系统基本数据结构(Event、Listener、Dispatcher)
二、Hera调度系统初始化、生成和清理版本
三、Hera调度系统 待执行队列 入队和出队时机

8、HIVE 相关整合

Hive Sql 迁移到 Spark Sql 问题集合
Sqoop 同步Parquet partition Hive表
Hive元数据 表结构
Hive Metastore部署方式
Hive Sql - Multi Distinct 优化
HIVE SQL 计算留存率 思路
HIVE分区表添加字段cascade 执行时间过长出现bug
hive collect_set 结果顺序不一致
Hive orc表 删除字段
同一个sql 在Hive和spark-sql 跑出结果不一样记录

9、YARN 相关

HADOOP YARN组件介绍
YARN-ApplicationMaster启动流程
YARN-Container申请和分配

发布了53 篇原创文章 · 获赞 50 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/xw514124202/article/details/102732603