sparkstreaming + kafka如何保证数据不丢失、不重复

其他 2018-06-22 23:51:55 阅读次数: 6

spark-streaming作为一个24*7不间断运行的程序来设计，但是程序都会crash，如果crash了，如何保证数据不丢失，不重复。

Input DStreams and Receivers

spark streaming提供了两种streaming input source：

basic source: Source directly avaliable in the StreamingContext API. Examples: file,socket connnection
advanced source: Source like kafka/kinesis, etc. are avaliable through extra utility classes.

本文只讨论高级数据源，因为针对流计算场景，基本数据源不适用。
高级数据源，这里以kafka为例，kafka作为输入源，有两种方式：
1. Receiver-based 方式
2. Direct 方式
两种方式的对比见博客：

保证数据不丢失（at-least）

spark RDD内部机制可以保证数据at-least语义。

Receiver方式

开启WAL（预写日志），将从kafka中接受到的数据写入到日志文件中，所有数据从失败中可恢复。

Direct方式

依靠checkpoint机制来保证。

保证数据不重复（exactly-once）

要保证数据不重复，即Exactly once语义。
- 幂等操作：重复执行不会产生问题，不需要做额外的工作即可保证数据不重复。
- 业务代码添加事务操作

dstream.foreachRDD {(rdd, time) =
  rdd.foreachPartition { partitionIterator =>
    val partitionId = TaskContext.get.partitionId()
    val uniqueId = generateUniqueId(time.milliseconds,partitionId)
    //use this uniqueId to transationally commit the data in partitionIterator
 }
}

1
2
3
4
5
6
7

就是说针对每个partition的数据，产生一个uniqueId，只有这个partition的所有数据被完全消费，则算成功，否则算失效，要回滚。下次重复执行这个uniqueId时，如果已经被执行成功，则skip掉。

猜你喜欢

转载自blog.csdn.net/qq_15300683/article/details/80654650

sparkstreaming + kafka如何保证数据不丢失、不重复

sparkStreaming kafka保证数据不丢失、不重复

kafka SparkStreaming

SparkStreaming读取Kafka数据

SparkStreaming消费kafka数据

sparkstreaming数据丢失和重复消费问题

大数据之sparkStreaming（一）：sparkStreaming概述、SparkStreaming的组件

Storm与SparkStreaming的区别？（storm与sparkstreaming如何选择）

kafka整合sparkStreaming

sparkstreaming写入kafka的优化

12.3 kafka和Sparkstreaming

SparkStreaming 读取Kafka createDirectStreaming

SparkStreaming操作Kafka

sparkstreaming 监听 kafka 代码

kafka整合sparkStreaming问题

SparkStreaming 读写Kafka

sparkStreaming kafka学习笔记

SparkStreaming整合kafka入门

SparkStreaming整合kafka

SparkStreaming整合kafka的补充

SparkStreaming与kafka入门学习

SparkStreaming+Kafka整合

SparkStreaming与Kafka的整合（基础）

SparkStreaming 整合kafka Demo

kafka整合sparkStreaming及优化

kafka与SparkStreaming整合

Kafka+sparkStreaming+Hbase

SparkStreaming整合kafka的代码

SparkStreaming+Kafka

kafka同SparkStreaming的对接

今日推荐

周排行

Java基础系列-Java11特性解读

前端面试查漏补缺--(十一) 前端软件架构模式MVC/MVP/MVVM

java Listener监听器

矩阵的迹

运用MVP实现二级联动

019基于JSP的学生考勤管理系统(MySQL版)

一道逻辑题 - 我拿走了哪个数

C# 通用单例窗体类

分布式之消息队列复习精讲【转】

Mac 使用.bash_profile

每日归档

更多

2024-07-11(0)

2024-07-10(0)

2024-07-09(0)

2024-07-08(0)

2024-07-07(0)

2024-07-06(0)

2024-07-05(0)

2024-07-04(0)

2024-07-03(0)

2024-07-02(0)