Implementing a Massively Parallel Streaming Architectur

作者:禅与计算机程序设计艺术

1.简介

Apache Presto是一个开源分布式SQL查询引擎,它能够快速、高效地处理大规模数据集。Apache Kafka是一个高吞吐量、低延迟、可扩展的分布式消息队列系统。它们被广泛应用于大数据流处理领域。本文将描述如何在AWS上部署一个基于Apache Presto和Apache Kafka的大规模并行流处理架构。

2.相关术语

  • 数据源:指的是实时数据收集的来源,可以是传感器设备、日志文件等。
  • 数据湖:一种用于存储所有原始数据和处理后的数据集的中心仓库。
  • ETL(抽取、转换、加载): 是指从不同来源(如数据库或文件)中提取数据,对其进行清洗、转换、加载至数据湖的过程。
  • Apache Presto:一种开源分布式SQL查询引擎,能够支持大规模的超大数据集,并且提供直观易用的交互界面。
  • Apache Hadoop MapReduce:是一种编程模型,它允许并行计算处理,适合于处理海量数据的离线分析。
  • Apache Hive:一种开源数据仓库工具,基于Hadoop,它能够将结构化的数据映射到HDFS上,并提供SQL接口访问数据。
  • Apache Spark:是一款开源大数据分析引擎,能够处理各种各样的任务,包括实时流处理、机器学习和图形处理。
  • Amazon Kinesis Streams:一种托管服务,可实现无限的

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132706235