版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zxh19800626/article/details/84669721
Pandora数据工厂
Pandora数据工厂是大数据领域PaaS平台,是一站式的DW能力平台,提供数据集成、数据存储、数据开发、数据管理、数据治理和数据服务等全方位的产品服务。
Pandora数据工厂是用于工作流可视化开发和托管任务调度的海量数据离线加工分析平台,支持按照时间和依赖关系的任务全面托管调度,支持每日千万级别的任务按照DAG关系准确、准时运行,提供可视化的任务监控管理工具,支持以 DAG 图的形式展示任务运行时的全局情况等使用。
数据的分析流程如下:
一、名词说明
-
项目空间(Project)是 Pandora的基本组织单元,它类似于传统数据库的 Schema 的概念,是进行多用户隔离和访问控制的主要边界。一个项目组可以同时拥有多个项目空间的权限,可以访问项目空间的对象,例如:
表、数据存储、数据,资源、函数和任务实例。
-
Pandora数据工厂
-
数据集成即为ETL
-
数据管理即为数据治理
-
数据开发即为数据计算包括数据的离线计算和流式计算
-
数据服务即为数据交换中的数据服务
-
数据交换包括数据的四个方面:数据审计、数据权限和数据服务
二、基础架构
Pandora采用的技术栈如下图:
三、功能概述
Pandora数据工厂功能如下:
1. 任务调度
- 调度任务
提供强大的调度能力,支持按照时间、依赖关系的任务触发机制,支持每日千万级别的任务按照DAG关系准确、准时运行。支持cron表达式,可以进行分钟、小时、天、周和月多种调度周期配置。 - 支持多种任务类型
支持SHELL、HadoopShell、Spark、Pig、Hive、MR1、MR2、Sqoop等多种任务类型,通过任务之间的相互依赖完成复杂的数据分析处理。
2. 可视化开发
- 提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单的拖拽和开发就可以完成复杂的数据分析任务。只要有浏览器有网络,便可随时随地进行开发工作。
3. 监控告警
- 运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况。