数据分析学习线路图
- 现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况,应该怎么做呢?
数据来源:https://www.kaggle.com/mchirico/montcoalert/data
1.查看数据信息
方法1
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
df = pd.read_csv("./911.csv")
# print(df.head(5))
# print(df.info)
lat lng ... addr e
0 40.297876 -75.581294 ... REINDEER CT & DEAD END 1
1 40.258061 -75.264680 ... BRIAR PATH & WHITEMARSH LN 1
2 40.121182 -75.351975 ... HAWS AVE 1
3 40.116153 -75.343513 ... AIRY ST & SWEDE ST 1
4 40.251492 -75.603350 ... CHERRYWOOD CT & DEAD END 1
[5 rows x 9 columns]
<bound method DataFrame.info of lat lng ... addr e
0 40.297876 -75.581294 ... REINDEER CT & DEAD END 1
1 40.258061 -75.264680 ... BRIAR PATH & WHITEMARSH LN 1
2 40.121182 -75.351975 ... HAWS AVE 1
... ... ... ... ... ..
249734 40.095109 -75.405805 ... 1ST AVE 1
249735 40.196606 -75.423406 ... MILL RD & CASSEL RD 1
249736 40.095206 -75.410735 ... 1ST AVE & MOORE RD 1
[249737 rows x 9 columns]>
2.统计出出这些数据中不同类型的紧急情况的次数
类型在title”:“前面的几个字符串,待会儿需要切割取出。
# coding=utf-8
import pandas as pd
import numpy as np
df = pd.read_csv("./911.csv")
# print(df.head(5))
# print(df.info)
# 获取分类
# print()df["title"].str.split(": ")
temp_list = df["title"].str.split(": ").tolist() # 将字符串切割成两块,然后转变成list
cate_list = list(set([i[0] for i in temp_list])) # 取出list中的第一个元素
print(cate_list)
# 构造全为0的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0], len(cate_list))), columns=cate_list)
# 赋值
for cate in cate_list:
zeros_df[cate][df["title"].str.contains(cate)] = 1
# break
# print(zeros_df)
sum_ret = zeros_df.sum(axis=0)
print(sum_ret)
方法2:添加一列cata[Fire,EMS,Tra]、然后groupby求和
# coding=utf-8
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
df = pd.read_csv("./911.csv")
# print(df.head(5))
# 获取分类
# print()df["title"].str.split(": ")
temp_list = df["title"].str.split(": ").tolist()
cate_list = [i[0] for i in temp_list]
df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0], 1)))
# print(df.head(5))
print(df.groupby(by="cate").count()["title"])
输出结果:
['Traffic', 'Fire', 'EMS']
Traffic 87465.0
Fire 37432.0
EMS 124844.0
dtype: float64
3.统计出不同月份不同类型紧急电话的次数的变化情况
见下列pandas中的时间序列
// A code block
var foo = 'bar';
6. 为什么要学习pandas中的时间序列
- 不管在什么行业,时间序列都是一种非常重要的数据形式,很多统计数据以及数据的规律也都和时间序列有着非常重要的联系
而且在pandas中处理时间序列是非常简单的
6.1 生成一段时间范围
- pd.date_range(start=None, end=None, periods=None, freq=‘D’)
- start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引
- start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引
关于频率的更多缩写
在DataFrame中使用时间序列
解答:我们通过重采样的方式获取每个月或者每个季度的次数
import pandas as pd
import numpy as np
index = pd.date_range("20170101", periods=10)
df = pd.DataFrame(np.random.rand(10), index=index) # 行索引为日期
print(df)
输出:
0
2017-01-01 0.910441
2017-01-02 0.588550
2017-01-03 0.609017
2017-01-04 0.422635
2017-01-05 0.384652
2017-01-06 0.578640
2017-01-07 0.496473
2017-01-08 0.281733
2017-01-09 0.867453
2017-01-10 0.494709
pandas重采样
- 重采样:指的是将时间序列从一个频率转化为另一个频率进行处理的过程,将高频率数据转化为低频率数据为 降采样,低频率转化为高频率为 升采样
pandas提供了一个resample的方法来帮助我们实现频率转化
3.统计出不同月份紧急电话的次数的变化情况
# coding=utf-8
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
df = pd.read_csv("./911.csv")
df["timeStamp"] = pd.to_datetime(df["timeStamp"])
df.set_index("timeStamp", inplace=True)
# 统计出911数据中不同月份电话次数的
count_by_month = df.resample("M").count()["title"]
print(count_by_month)
# 画图
_x = count_by_month.index
_y = count_by_month.values
# for i in _x:
# print(dir(i))
# break
_x = [i.strftime("%Y%m%d") for i in _x]
plt.figure(figsize=(20, 8), dpi=80)
plt.plot(range(len(_x)), _y)
plt.xticks(range(len(_x)), _x, rotation=45)
plt.show()
输出的结果:统计出911数据中不同月份电话次数
timeStamp
2015-12-31 7916
2016-01-31 13096
2016-02-29 11396
2016-03-31 11059
2016-04-30 11287
2016-05-31 11374
2016-06-30 11732
2016-07-31 12088
2016-08-31 11904
2016-09-30 11669
2016-10-31 12502
2016-11-30 12091
2016-12-31 12162
2017-01-31 11605
2017-02-28 10267
2017-03-31 11684
2017-04-30 11056
2017-05-31 11719
2017-06-30 12333
2017-07-31 11768
2017-08-31 11753
2017-09-30 7276
Freq: M, Name: title, dtype: int64
4.统计出不同月份不同类型紧急电话的次数的变化情况
# coding=utf-8
# 911数据中不同月份不同类型的电话的次数的变化情况
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
# 把时间字符串转为时间类型设置为索引
df = pd.read_csv("./911.csv")
df["timeStamp"] = pd.to_datetime(df["timeStamp"])
# 添加列,表示分类
temp_list = df["title"].str.split(": ").tolist()
cate_list = [i[0] for i in temp_list]
# print(np.array(cate_list).reshape((df.shape[0],1)))
df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0], 1)))
df.set_index("timeStamp", inplace=True)
print(df.head(1))
plt.figure(figsize=(20, 8), dpi=80)
# 分组
for group_name, group_data in df.groupby(by="cate"):
# 对不同的分类都进行绘图
count_by_month = group_data.resample("M").count()["title"]
# 画图
_x = count_by_month.index
print(_x)
_y = count_by_month.values
_x = [i.strftime("%Y%m%d") for i in _x]
plt.plot(range(len(_x)), _y, label=group_name)
plt.xticks(range(len(_x)), _x, rotation=45)
plt.legend(loc="best")
plt.show()