数据分析学习线路图

在这里插入图片描述

现在我们有2015到2017年25万条911的紧急电话的数据，请统计出出这些数据中不同类型的紧急情况的次数，如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况，应该怎么做呢？
数据来源：https://www.kaggle.com/mchirico/montcoalert/data

1.查看数据信息

方法1

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv("./911.csv")

# print(df.head(5))
# print(df.info)

         lat        lng  ...                        addr  e
0  40.297876 -75.581294  ...      REINDEER CT & DEAD END  1
1  40.258061 -75.264680  ...  BRIAR PATH & WHITEMARSH LN  1
2  40.121182 -75.351975  ...                    HAWS AVE  1
3  40.116153 -75.343513  ...          AIRY ST & SWEDE ST  1
4  40.251492 -75.603350  ...    CHERRYWOOD CT & DEAD END  1

[5 rows x 9 columns]
<bound method DataFrame.info of               lat        lng  ...                        addr  e
0       40.297876 -75.581294  ...      REINDEER CT & DEAD END  1
1       40.258061 -75.264680  ...  BRIAR PATH & WHITEMARSH LN  1
2       40.121182 -75.351975  ...                    HAWS AVE  1
...           ...        ...  ...                         ... ..
249734  40.095109 -75.405805  ...                     1ST AVE  1
249735  40.196606 -75.423406  ...         MILL RD & CASSEL RD  1
249736  40.095206 -75.410735  ...          1ST AVE & MOORE RD  1

[249737 rows x 9 columns]>

2.统计出出这些数据中不同类型的紧急情况的次数

类型在title”：“前面的几个字符串，待会儿需要切割取出。

# coding=utf-8
import pandas as pd
import numpy as np

df = pd.read_csv("./911.csv")

# print(df.head(5))
# print(df.info)

# 获取分类
# print()df["title"].str.split(": ")
temp_list = df["title"].str.split(": ").tolist()  # 将字符串切割成两块，然后转变成list
cate_list = list(set([i[0] for i in temp_list]))    # 取出list中的第一个元素
print(cate_list)

# 构造全为0的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0], len(cate_list))), columns=cate_list)

# 赋值
for cate in cate_list:
    zeros_df[cate][df["title"].str.contains(cate)] = 1
    # break
# print(zeros_df)

sum_ret = zeros_df.sum(axis=0)
print(sum_ret)

方法2：添加一列cata[Fire,EMS,Tra]、然后groupby求和

# coding=utf-8
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv("./911.csv")

# print(df.head(5))
# 获取分类
# print()df["title"].str.split(": ")
temp_list = df["title"].str.split(": ").tolist()
cate_list = [i[0] for i in temp_list]
df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0], 1)))

# print(df.head(5))
print(df.groupby(by="cate").count()["title"])

输出结果：
['Traffic', 'Fire', 'EMS']
Traffic     87465.0
Fire        37432.0
EMS        124844.0
dtype: float64

3.统计出不同月份不同类型紧急电话的次数的变化情况

见下列pandas中的时间序列

// A code block
var foo = 'bar';

6. 为什么要学习pandas中的时间序列

不管在什么行业，时间序列都是一种非常重要的数据形式，很多统计数据以及数据的规律也都和时间序列有着非常重要的联系
而且在pandas中处理时间序列是非常简单的

6.1 生成一段时间范围

pd.date_range(start=None, end=None, periods=None, freq=‘D’)
- start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引
- start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引

在这里插入图片描述

关于频率的更多缩写

在这里插入图片描述

在DataFrame中使用时间序列

在这里插入图片描述
解答：我们通过重采样的方式获取每个月或者每个季度的次数

import pandas as pd
import numpy as np

index = pd.date_range("20170101", periods=10)
df = pd.DataFrame(np.random.rand(10), index=index)  # 行索引为日期
print(df)

输出：
                   0
2017-01-01  0.910441
2017-01-02  0.588550
2017-01-03  0.609017
2017-01-04  0.422635
2017-01-05  0.384652
2017-01-06  0.578640
2017-01-07  0.496473
2017-01-08  0.281733
2017-01-09  0.867453
2017-01-10  0.494709

pandas重采样

重采样：指的是将时间序列从一个频率转化为另一个频率进行处理的过程，将高频率数据转化为低频率数据为降采样，低频率转化为高频率为升采样
pandas提供了一个resample的方法来帮助我们实现频率转化

3.统计出不同月份紧急电话的次数的变化情况

# coding=utf-8
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv("./911.csv")

df["timeStamp"] = pd.to_datetime(df["timeStamp"])

df.set_index("timeStamp", inplace=True)

# 统计出911数据中不同月份电话次数的
count_by_month = df.resample("M").count()["title"]
print(count_by_month)

# 画图
_x = count_by_month.index
_y = count_by_month.values

# for i in _x:
#     print(dir(i))
#     break
_x = [i.strftime("%Y%m%d") for i in _x]

plt.figure(figsize=(20, 8), dpi=80)

plt.plot(range(len(_x)), _y)

plt.xticks(range(len(_x)), _x, rotation=45)

plt.show()

输出的结果：统计出911数据中不同月份电话次数
timeStamp
2015-12-31     7916
2016-01-31    13096
2016-02-29    11396
2016-03-31    11059
2016-04-30    11287
2016-05-31    11374
2016-06-30    11732
2016-07-31    12088
2016-08-31    11904
2016-09-30    11669
2016-10-31    12502
2016-11-30    12091
2016-12-31    12162
2017-01-31    11605
2017-02-28    10267
2017-03-31    11684
2017-04-30    11056
2017-05-31    11719
2017-06-30    12333
2017-07-31    11768
2017-08-31    11753
2017-09-30     7276
Freq: M, Name: title, dtype: int64

在这里插入图片描述

4.统计出不同月份不同类型紧急电话的次数的变化情况

# coding=utf-8
# 911数据中不同月份不同类型的电话的次数的变化情况
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

# 把时间字符串转为时间类型设置为索引
df = pd.read_csv("./911.csv")
df["timeStamp"] = pd.to_datetime(df["timeStamp"])

# 添加列，表示分类
temp_list = df["title"].str.split(": ").tolist()
cate_list = [i[0] for i in temp_list]
# print(np.array(cate_list).reshape((df.shape[0],1)))
df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0], 1)))

df.set_index("timeStamp", inplace=True)

print(df.head(1))

plt.figure(figsize=(20, 8), dpi=80)

# 分组
for group_name, group_data in df.groupby(by="cate"):
    # 对不同的分类都进行绘图
    count_by_month = group_data.resample("M").count()["title"]

    # 画图
    _x = count_by_month.index
    print(_x)
    _y = count_by_month.values

    _x = [i.strftime("%Y%m%d") for i in _x]

    plt.plot(range(len(_x)), _y, label=group_name)

plt.xticks(range(len(_x)), _x, rotation=45)
plt.legend(loc="best")
plt.show()

在这里插入图片描述

数据分析(十一)之pandas时间序列

数据分析学习线路图

见下列pandas中的时间序列

6. 为什么要学习pandas中的时间序列

6.1 生成一段时间范围

关于频率的更多缩写

在DataFrame中使用时间序列

pandas重采样

猜你喜欢