广告统计top3（二） - 代码天地

广告统计top3（二）

其他 2020-10-28 10:37:04 阅读次数: 0

数据字段：时间戳，省份，城市， userId， adId
统计每一个省份每一个小时的广告id访问量top3

package com.jxlg.RDD

import org.apache.spark.{
    
    SparkConf, SparkContext}
import org.joda.time.DateTime

/**
 * 数据字段： 时间戳   省份   城市   userId  adId
 * 统计每一个省份每一个小时的广告id访问量top3
 */
object AdventTop3_2 {
    
    
  def main(args: Array[String]): Unit = {
    
    
    val conf = new SparkConf().setAppName("AdventTop3_2").setMaster("local[2]")
    val sc =new SparkContext(conf)
    val logsArr = sc.textFile("hdfs://192.168.157.132:9000/user/hdfs/add.txt").map(_.split("\t"))
    //将数据整合成元组，便于聚合，key= 省份+小时+广告id
    val proAndHourAndAdId = logsArr.map(arr => {
    
    
      val province = arr(1)
      val hour = getHour(arr(0))
      val adId = arr(4)
      (province+"_"+hour+"_"+adId,1)
    })
    //聚合生成每一个省份的每一个小时的广告点击量
    val aggred = proAndHourAndAdId.reduceByKey(_+_)
    //重新整合数据，便于接下来的分组排序
   val proAndHourTup =  aggred.map(tup => {
    
    
     val splited = tup._1.split("_")
      val pro = splited(0)
      val hour = splited(1)
      val adId = splited(2)
      ((pro,hour),adId,tup._2)
    })
    //用省份和小时进行分组
    val grouped = proAndHourTup.groupBy(_._1)

    //开始组内排序
    val res = grouped.mapValues(x => x.toList.sortWith(_._3>_._3).take(3))

    println(res.collect.toBuffer)

    sc.stop()


  }

  /**
   * 获取时间戳的小时方法
   * @param time_long
   * @return
   */
  def getHour(time_long : String): String ={
    
    
    val dateTime = new DateTime(time_long.toLong)
    dateTime.getHourOfDay.toString
  }
}

猜你喜欢

转载自blog.csdn.net/qq_42706464/article/details/108307227

广告统计top3（二）

广告统计top3（一）

Spark RDD算子实例——统计广告点击量 Top3

118.Spark大型电商项目-广告点击流量实时统计-计算每天各省的top3热门广告

SparkStreamin 广告流量实时点击生成黑名单过滤黑名单各省市各广告实时统计每天各省top3广告

0904-各区域Top3商品统计

mapreduce——Top3(TopN)

java spark 计算各个省份广告点击数的top3

Spark Streaming项目实战(1) | 每天每地区热门广告 Top3

统计所有用户对每个学科的各个模块的访问次数，再取Top3

Spark Streaming 项目实战 (3) | 得到每天每地区热门广告Top3并写入到redis

48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战

Python，首次进入语言排名TOP3！！！

数据竞赛：记录3天进入比赛Top3%的全过程

未来杯总结5--利用已有模型predict top3

Spark项目练习（计算用户访问学科子网页的top3）

2018年7月份JAVA开源软件TOP3

2018年7月份前端开源软件TOP3

Array.sort() 升序降序 -- 成绩前三名 TOP3

京东竞赛Top3分享|王师广：时尚服装中的属性识别

极市&电大 | 京东AI时尚挑战赛Top3技术方案

计算出用户上网流量总流量（上行+下行）最高的网站Top3

万年不变的 Top3 终于变了，6 月编程语言排行榜

不变的 Top3 终于变了，6 月编程语言排行榜！

快服务常见TOP3审核雷区，再不过审就要崩溃啦！

SparkSql 项目实战 | 各区域热门商品Top3

Spark SQL 项目实战 | 计算各区域热门商品 Top3

阿里云跻身全球SaaS云市场TOP3 成为亚太唯一入围厂商

阿里云容器服务入选云原生边缘「领导力企业TOP3」

2021 GitHub年度排行榜出炉！中文Top3项目诞生！

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)