网站流量日志分析系统笔记(Hadoop大数据技术原理与应用)
其他
2020-01-30 18:10:47
阅读次数: 0
一、系统架构设计
- 首先,会将Nginx服务器所产生的日志文件通过Flume采集到HDFS中;
- 其次,开发人员根据原始日志文件及规定数据格式定制开发MapReduce程序进行数据与处理;
- 接着,通过Hive进行最为重要的数据分析;
- 再次,将分析的记过通过sqoop工具导出到关系数据库MySQL中;
- 最后,通过Web系统,实现最为重要的数据分析
二、系统概述
- 虚拟机中的Flume采集网站日志,存放入到虚拟机hdfs中。
- 将虚拟机hdfs中的日志数据,存放到window中的D:/input文件夹中
- 在window中的eclipse中编写MapReduce程序,对D:/input中的日志数据进行清洗,并输出到D:/output
- 再将D:/output中的清洗后的数据,上传到虚拟机中的hdfs中
- 在虚拟机中的hive中,创建了数据仓库中的表,字段对应日志中的数据,并加载hdfs中清洗后的数据到该表中。编写HQL语句(类似sql语句),对数据进行汇总统计分析。因为hive中的表存放在hdfs中,所以汇总分析之后的数据也在hdfs中。
- 通过sqoop将hive统计分析之后的数据导入到mysql中。
- 编写ssm框架,利用Echarts,将mysql中的数据进行了可视化展示
三、最终展示效果
发布了43 篇原创文章 ·
获赞 13 ·
访问量 4907
转载自blog.csdn.net/qq_30693057/article/details/96052930