1、Hadoop组件安装
搭建CDH 阿里云 (Step 1: 启动hdfs)
搭建CDH 阿里云 (Step 2: 启动yarn)
搭建CDH 阿里云 (Step 3: 搭建Hive)
Hive On Spark搭建(cdh)
2、元数据
数据仓库-元数据简单总结
元数据-血缘分析-应用场景总结
数据资产管理-简单总结
数仓-HIVE元数据收集指标
HIVE元数据收集(python版本)
HIVE元数据使用场景落地(python版本)
HIVE 字段级血缘分析 写入Neo4j
3、JOB计算管理
Dr Elephant(HIVE JOB监控调优)安装使用
通过 Dr-Elephant 监控异常HIVE任务并报警
Dr-Elephant 丢失部分 YARN JOB
获取YARN上执行时间最长的JOB列表,并查看是否存在数据倾斜
HIVE SQL数据倾斜情况以及解决办法
MR过程
Spark-DAGScheduler之Job的提交划分Stage
4、HDFS存储管理
HIVE表 占用HDFS空间 TOP表查询
HDFS文件压缩工具,支持各种压缩格式
5、集群运维
跑满YARN资源-优化方向
YARN队列资源、NameNode等数据指标监控
YARN集群资源如何分配
YARN假死处理(JOB超过10000个)
6、数据仓库建模
数据仓库是什么,如何建立(总结)
数据仓库解决问题和分层设计好处
一致性维度表 设计思路
一致性事实表 设计思路
7、调度工具
zeus调度工具启动慢(zeus_action数据量太大)
一、Hera调度系统基本数据结构(Event、Listener、Dispatcher)
二、Hera调度系统初始化、生成和清理版本
三、Hera调度系统 待执行队列 入队和出队时机
8、HIVE 相关整合
Hive Sql 迁移到 Spark Sql 问题集合
Sqoop 同步Parquet partition Hive表
Hive元数据 表结构
Hive Metastore部署方式
Hive Sql - Multi Distinct 优化
HIVE SQL 计算留存率 思路
HIVE分区表添加字段cascade 执行时间过长出现bug
hive collect_set 结果顺序不一致
Hive orc表 删除字段
同一个sql 在Hive和spark-sql 跑出结果不一样记录
9、YARN 相关
HADOOP YARN组件介绍
YARN-ApplicationMaster启动流程
YARN-Container申请和分配