网站流量日志分析系统笔记(Hadoop大数据技术原理与应用)

一、系统架构设计

在这里插入图片描述

  • 首先,会将Nginx服务器所产生的日志文件通过Flume采集到HDFS中;
  • 其次,开发人员根据原始日志文件及规定数据格式定制开发MapReduce程序进行数据与处理;
  • 接着,通过Hive进行最为重要的数据分析;
  • 再次,将分析的记过通过sqoop工具导出到关系数据库MySQL中;
  • 最后,通过Web系统,实现最为重要的数据分析

二、系统概述

  1. 虚拟机中的Flume采集网站日志,存放入到虚拟机hdfs中。

  1. 将虚拟机hdfs中的日志数据,存放到window中的D:/input文件夹中

  1. 在window中的eclipse中编写MapReduce程序,对D:/input中的日志数据进行清洗,并输出到D:/output

  1. 再将D:/output中的清洗后的数据,上传到虚拟机中的hdfs中

  1. 在虚拟机中的hive中,创建了数据仓库中的表,字段对应日志中的数据,并加载hdfs中清洗后的数据到该表中。编写HQL语句(类似sql语句),对数据进行汇总统计分析。因为hive中的表存放在hdfs中,所以汇总分析之后的数据也在hdfs中。

  1. 通过sqoop将hive统计分析之后的数据导入到mysql中。

  1. 编写ssm框架,利用Echarts,将mysql中的数据进行了可视化展示

三、最终展示效果

在这里插入图片描述

发布了43 篇原创文章 · 获赞 13 · 访问量 4907

猜你喜欢

转载自blog.csdn.net/qq_30693057/article/details/96052930