通过单击流分析确定热门主题

本文将带领大家使用 Apache Spark 和 Kafka 收集、分析和报告网站访问者数据

概览

点击流分析是收集、分析和报告用户访问了哪些网页的过程,可以提供有关网站使用特征的有用信息。

点击流分析的一些流行用例包括:

  • A/B 测试 – 统计分析从版本 A 更改到 B 对网站的用户有何影响。
  • 在购物门户上生成推荐 – 购物门户网站用户的点击模式表明了用户是受何种影响才购买某款商品的。此信息可用来为未来的类似点击模式生成推荐。
  • 针对性广告 – 类似于推荐生成,但跟踪用户的跨网站点击,并利用此使投放的广告更实时准确。
  • 热门主题 – 可使用点击流分析来实时分析或报告热门主题。对于某个特定的时间段,显示获得用户点击次数最多的热门项目。

在本 Code Pattern 中,我们将演示如何检测 Wikipedia 上的实时热门主题。要执行此任务,将会使用 Apache Kafka 作为消息队列,使用 Apache Spark 结构化流引擎来执行分析。这种组合因其实用性、高吞吐量和低延迟特征而闻名。

完成本 Code Pattern 后,您将掌握如何:

  • 使用 Jupyter Notebook 加载、可视化和分析数据。
  •  IBM Watson Studio 中运行 Jupyter Notebook。
  • 使用 Apache Spark 结构化流执行点击流分析。
  • 利用 Apache Kafka 构建一个低延迟处理流。

相关演示视频

http://v.youku.com/v_show/id_XMzUwODg1NzE4OA==.html

立即注册体验点击这里

更多内容点击进入

猜你喜欢

转载自my.oschina.net/u/3341527/blog/1812141