使用Spark Streaming完成黑名单过滤 - 代码天地

使用Spark Streaming完成黑名单过滤

其他 2018-12-05 09:41:23 阅读次数: 0

版权声明：个人博客网址 https://29dch.github.io/ GitHub网址 https://github.com/29DCH，欢迎大家前来交流探讨和star+fork! 转载请注明出处! https://blog.csdn.net/CowBoySoBusy/article/details/84592295

首先在maven工程的pom.xml文件加入以下依赖：

<properties>
        <spark.version>2.2.0</spark.version>
    </properties>
 <!-- Spark Streaming 依赖-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

TransformApp.scala

package spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 黑名单过滤
  */
object TransformApp {


  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")

    /**
      * 创建StreamingContext需要两个参数：SparkConf和batch interval
      */
    val ssc = new StreamingContext(sparkConf, Seconds(5))


    /**
      * 构建黑名单
      */
    val blacks = List("zs", "ls")
    val blacksRDD = ssc.sparkContext.parallelize(blacks).map(x => (x, true))

    val lines = ssc.socketTextStream("localhost", 6789)
    val clicklog = lines.map(x => (x.split(",")(1), x)).transform(rdd => {
      rdd.leftOuterJoin(blacksRDD)
        .filter(x=> x._2._2.getOrElse(false) != true)
        .map(x=>x._2._1)
    })

    clicklog.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

猜你喜欢

转载自blog.csdn.net/CowBoySoBusy/article/details/84592295

使用Spark Streaming完成黑名单过滤

Spark Streaming实现黑名单过滤（scala）

spark从入门到放弃五十:Spark Streaming(10)实时黑名单过滤

Spark-Streaming之transform操作，实时黑名单过滤案例

一个spark streaming的黑名单过滤小例子

spark streaming scala 过滤黑名单

Spark Streaming篇4：Spark Streaming动态广播大变量并进行黑名单过滤

java，spark实现黑名单过滤

spark streaming中transform过滤广告黑名单

Spark Streaming实时流之实现黑名单（三）

Spark Streaming实时流之实现黑名单（二）

Spark Streaming实时流之实现黑名单（一）

sparkstreaming 黑名单过滤

Openresty之黑名单过滤

115.Spark大型电商项目-广告点击流量实时统计-过滤出每个batch中的黑名单用户以生成动态黑名单

Transformations on DStreams之transform的使用实现黑名单操作/指定过滤

个人使用的黑名单产品

Apache Spark 黑名单(Blacklist)机制介绍

Proxy SwitchyOmega 使用黑名单和白名单

116.Spark大型电商项目-广告点击流量实时统计-基于动态黑名单进行点击行为过滤

利用MySQL实现域名黑名单过滤10W记录1ms匹配

使用Spark Streaming完成有状态统计

使用Spark Streaming整合Spark SQL完成词频统计操作

spark streaming foreachRDD 使用

Spark Streaming 的foreachRDD使用

Spark Streaming 使用

spark streaming 中使用 spark sql

Spark实践二：Spark streaming的使用测试

电话黑名单

邮件黑名单

今日推荐

AI小程序有哪些？AI小程序哪个好用？微信小程序AI写作叫什么？免费的ai小程序推荐 ai写作小程序推荐

灵办AI工具(科研学术,代码编程,学习辅导,图书报告)功能介绍

Linux内核源码分析（非常详细）零基础入门到精通，收藏这一篇就够了

【C++篇】启航——初识C++（上篇）

数据飞轮崛起：数据中台真的过时了吗？

828华为云征文——使用Flexus云服务器X实例CentOS镜像下创建MySQL服务器教程

阿里巴巴出品的6款AI神器，你用过几个？

【机器学习】多模态AI——融合多种数据源的智能系统

HashiCorp 创始人向 Zig 软件基金会捐赠 30 万美元

1-8 月我国软件业务收入 85492 亿元，同比增长 11.2%

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

周排行

Ubuntu+apache2+php5+mysql+phpmyadmin的php环境搭建

基于YOLOv3+Kalman-Filter实现Multi-target tracking

解释C++实例化类的指针类型中的new

苹果手机页面不兼容问题——mui

Python基础语法

javascript学习笔记一【预解释】

python内置函数 map

【Git】使用webstorm操作git

this与super关键字（一）

python list 使用技巧

每日归档

更多

2024-10-04(63)

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)