随着大数据 2.0 时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌现出诸多大数据应用组件,如 HBase、Hive、Kafka、Spark、Flink 等。开发者经常要用到不同的技术、框架、API、开发语言和 SDK 来应对复杂应用的开发,这大大增加了选择合适工具和框架的难度,开发者想要将所有的大数据组件熟练运用几乎是一项不可能完成的任务。
面对这种情况,Google 在 2016 年 2 月宣布将大数据流水线产品(Google DataFlow)贡献给 Apache 基金会孵化,2017 年 1 月 Apache 对外宣布开源 Apache Beam, 提供了一套统一的 API 来处理两种数据处理模式(批和流),让我们只需要将注意力专注于数据处理的算法上,而不用再花时间去维护两种数据处理模式上的差异。
在本场 Chat 中,会讲到如下内容:
- 介绍
- 编程模型
- PCollection
- Pipeline
- Transform
- Pipeline I/O
- 自定义 IO
- 到处运行
- 单元测试
- 离线计算
- 实时计算
- 引擎源码分析
- 调优
- 总结
适合人群: 对数据处理感兴趣的技术人员
订阅网址:https://gitbook.cn/gitchat/activity/5dad728e7c3fea79dbc619a4