需求:
文章表一张。
每小时,统计出上一个小时(发文时间)文章内容中出现最多的前100个单词。
其实就是一个 滑动窗口 TOPN
方案1:单机单线程,定时每小时统计上一个小时的文章单词的前100个。
优点:简单
缺点: 数据量大,速度慢
方案2:单机多线程,定时每小时统计上一个小时的文章单词的前100个。
扫描二维码关注公众号,回复:
753479 查看本文章
优点:较简单
缺点: 数据量大,速度较慢
方案3:多机多线程,Spark streaming, storm
优点: 复杂
缺点: 数据量大,速度较块