SparkStreaming知识点总结

1、SparkStreaming简介

1、 SparkStreaming是流式处理框架,是SparkAPI的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是: Kafka, Flume, Twitter, ZeroMQ或者TCP sockets ,并且可以使用高级功能的复杂算子来处理流数据。例如: map,reducejoin,window。最终,处理后的数据可以存放在文件系统,数据库等,方便实时展现。
2、 sparkstreaming与stome的区别：
1.Storm是纯实时处理数据, SparkStreaming微批处理数据,可以通过控制间隔时间做到实时处理。 SparkStreaming相对于Storm来说,吞吐量大。

2.Storm擅长处理简单的汇总型业务。SparkStreaming擅长处理复杂的业务。Storm相对于SparkStreaming来说轻量级。SparkStreaming 中可以使用core或者sq|或者机器学习。。。

3.Storm的事务与SparkStreaming不同, SparkStreaming可以管理事务。

4.Storm支持动态的资源调度, Spark也是支持。

事务：事务必须服从ISO/IEC所制定的ACID原则。

ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状态。隔离性表示在事务执行过程中对数据的修改，在事务提交之前对其他事务不可见。持久性表示已提交的数据在事务执

SparkStreaming知识点总结

1、SparkStreaming简介

猜你喜欢