Spark Streaming 提供窗口DStream的RDD计算实践

原理解释

Spark Streaming 提供窗口计算,允许滑动数据窗口上进行操作RDD。下图是官方图片说明了此滑动窗口。

如图所示,每当窗口滑过源DStream时,落在窗口内的源RDD,被组合,并进行操作,以产生窗口DStream的RDD。

在这种具体情况下,操作应用于最近3个时间单位的数据,并以2个时间单位滑动。这表明任何窗口操作都需要指定两个参数。

  • (windowLength)窗口长度 - 窗口的持续时间。
  • (slideInterval)滑动间隔 - 执行窗口操作的间隔。

注意:这两个参数必须是源DStream的批间隔的倍数

猜你喜欢

转载自blog.csdn.net/as4589sd/article/details/104168360