Flink引擎

企业开发 2023-08-06 13:02:30 阅读次数: 0

Flink引擎

Flink概述

什么是大数据

指无法在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。

批计算和流计算的区别

为什么需要流计算

大数据的实时性带来价值更大，eg：实时推荐、数据监控

Flink的特点

Exactly-Once

高吞吐低延迟，实时快速

高容错

流批一体

Streaming/Batch SQL

Flink整体框架

Flink 分层框架

SDK层：支持SQL/Table、DataStream(java)、Python

执行引擎层：提供统一DAG（有向无环图）来描述数据处理的Pipeline；调度层再把DAG转化成分布式环境下的Task；Task之间通过Shuffle传输数据

状态存储层：存储算子状态信息

资源调度层：Flink可以支持部署在多种环境

Flink 整体框架

一个Flink集群主要包含两个核心组件：JM（JobManager）、TM（TaskManager）

JM 负责整个任务的协调工作，包括：调度 task、触发协调 Task 做 Checkpoint、协调容错恢复等，核心有下面三个组件：

Dispatcher: 接收作业，拉起 JobManager 来执行作业，并在 Job Master 挂掉之后恢复作业；

Job Master: 管理一个 job 的整个生命周期，会向 Resource Manager 申请 slot，并将 task 调度到对应 TM 上；

Resource Manager：负责 slot 资源的管理和调度，Task manager 拉起之后会向 RM 注册；

TM 负责执行一个 DataFlow Graph 的各个 task 以及 data streams 的 buffer 和数据交换。

Flink 如何做到流批一体

流计算和批计算独立情况下：

人力成本高：批、流两套系统的逻辑相似，但是需要开发两遍；

数据链路冗余：本身计算内容是一致的，用两套逻辑相似的链路来处理，产生一定的资源浪费；

数据口径不一致：两套链路或多或少会产生误差，会给业务方带来困扰。

为什么可以实现流批一体：

站在 Flink 的角度，Everything is Streams，无边界数据集是一种数据流，可以按照时间分成一个个有界数据集；

而批计算可以看作是流计算的特例，其有界数据集也是一种特殊数据流。

因此，无论是无边界数据集还是有界数据集，Flink都可以支持，并且从API到底层处理都是统一的，实现了流批一体。

流批一体的 Scheduler 层

Scheduler 主要负责将作业的 DAG 转化为在分布式环境中可以执行的 Task；

EAGER模式（Streaming 场景）：申请一个作业所需要的全部资源，然后同时调度这个作业的全部 Task，所有的 Task 之间采取 Pipeline 的方式进行通信；

LAZY模式（Batch 场景）：先调度上游，等待上游产生数据或结束后再调度下游，类似 Spark 的 Stage 执行模式。

流批一体的 Shuffle Service 层

Shuffle：在分布式计算中，用来连接上下游数据交互的过程叫做 Shuffle。

为了统一在Streaming和Batch模式下的Shuffle架构，Flink实现了一个Pluggable的Shuffle Service框架，抽象出一些公共模块，详情如下

经过在 DataStream 层、Scheduler层、Shuffle Service 层进行改造和优化，Flink已经可以方便地解决流和批场景的问题。

猜你喜欢

转载自blog.csdn.net/m0_51561690/article/details/128687112

Flink引擎

【Flink SQL引擎】：Calcite 功能简析及在 Flink 的应用

大数据计算引擎——Flink学习

Flink/CEP/规则引擎/风控

大数据计算引擎之Flink简介

大数据计算引擎之Flink概述

强力推荐flink流式引擎入门

项目实施-13（集成Flink计算引擎）

Apache Flink OLAP引擎性能优化及应用

大数据处理引擎Spark与Flink对比分析！

大数据处理引擎Spark与Flink对比分析

通过Flink实时构建搜索引擎的索引

Spark与Flink大数据处理引擎对比分析！

大数据处理引擎Spark与Flink大比拼

大数据计算引擎之Flink配置高可用

大数据计算引擎之Flink流处理基础

大数据计算引擎之 Flink原理与实现：内存管理

大数据计算引擎之Flink的重启策略

基于Kafka的实时计算引擎：Flink能否替代Spark？

Flink 执行引擎：流批一体的融合之路

Flink及Storm、Spark主流计算引擎框架比较

Flink实战之实时风控规则引擎

Flink 引擎在快手的深度优化与生产实践

Hive SQL on Flink 构建流批一体引擎

货拉拉基于 Flink 计算引擎的应用与优化实践

流数据湖平台Apache Paimon（二）集成 Flink 引擎

大数据计算引擎之Flink Flink状态管理和容错

大数据计算引擎之Flink Flink CEP复杂事件编程

Flink中的一些核心概念，深度剖析新一代Flink计算引擎

Flink

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)