1.背景
AQI就是各项污染物空气质量分指数中的最大值。当AQI大于50时,IAQI最大的污染物为首要污染物,若IAQI最大的污染物为两项或两项以上时,并列为首要污染物。空气质量指数,综合表示空气污染程度或空气质量等级的无量纲的相对数值。数据源来自2017月,河北秦皇岛空气质量指数和其他的指标的数据。分析结果表明,2017年河北秦皇岛空气质量指数是在冬季比较高,在夏季比较低。根据相关检验上的p值推断,2017年河北秦皇岛空气质量指数与最高温度 ,最低温度, 天气 ,风向和风力都是有关的。基于最高温度 , 天气 ,风向和风力对空气质量指数进行预测,建立多元线性模型,线性模型的R2是0.9968,预测效果非常的好。
2.数据源说明
数据源来自2017月,河北秦皇岛空气质量指数和其他的指标的数据。
数据集df一共有个365行,10列。
将数据集导入R语言,查看每列的具体的情况
其中数据都是文本类型,需要进行一定的数据预处理的工作,比如将文本转化为数字。主要是最高温度和最低温度。
经过数据处理后,可以查看对应的类型,发现符合我的预期
在这里插入图片描述
3.数据描述
一、描述性统计
空气质量较好/较差?计算每一年的所有空气指标的统计结果
其中2017年河北秦皇岛天气空气污染情况大多数是优和良
二、单变量分析
基于数据集,绘制空气质量指数,最高温度和最低温度的趋势图。
基于数据集,绘制天气,风向,风力和空气污染程度的饼图。
三、双变量分析
空气质量主要受哪些因素的影响?
我进行相关检验,下面的检验的结果,如果p值小于0.05,说明了显著相关。
空气质量指数和最高,最低温度有关,是负相关,说明了温度越高,空气质量指数越低,也就是越好,也就是热的时候空气好,降温的时候空气不好,比如经常出现雾霾。
卡方检验,对于双变量的进行卡方检验,如果p值小于0.05,说明了显著相关。
卡方检验的p值都是小于0.05,说明了空气污染程度和天气,风向,风力显著相关。
双变量作图
统计建模
怎样预测一个城市的空气质量?基于上面的数据集,做多元线性模型。
多元线性模型预测的R2是0.9968
4.结束语
从整体来看,2017年河北秦皇岛空气质量指数是在冬季比较高,在夏季比较低。根据相关检验上的p值推断,2017年河北秦皇岛空气质量指数与最高温度 ,最低温度, 天气 ,风向和风力都是有关的。基于最高温度 , 天气 ,风向和风力对空气质量指数进行预测,建立多元线性模型,线性模型的R2是0.9968,预测效果非常的好。