图的用途+panda绘图(二):箱线图、面积图、散点图

约定:

%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

图的用途+pandas绘图

一、箱线图 Box Chart

  • 箱线图的用途

箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。

这里写图片描述

箱线图作为描述统计的工具之一,其功能有独特之处,主要有以下几点:

1.直观明了地识别数据批中的异常值

2.利用箱线图判断数据批的偏态和尾重

3.利用箱线图比较几批数据的形状

图中白点即为异常值,关于异常值 https://www.zhihu.com/question/36172806 有详解。

  • 类型1:单箱线图
se=pd.Series(np.random.randint(1,10,10))
se.plot.box();
print(se)
0    5
1    1
2    2
3    6
4    8
5    3
6    4
7    8
8    4
9    8
dtype: int32

png

  • 类型2:多箱线图
df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
df.boxplot();

png

  • 类型3:水平箱线图
df.plot.box(vert=False, positions=[1, 4, 5, 6, 8]);

png

二、面积图 Area Chart

  • 面积图的用途

面积图又称区域图,强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。堆积面积图还可以显示部分与整体的关系。折线图和面积图都可以用来帮助我们对趋势进行分析,当数据集有合计关系或者你想要展示局部与整体关系的时候,使用面积图为更好的选择

  • 类型1:面积图
df = pd.DataFrame(np.random.randint(0,10, (10,3)), columns=['a', 'b', 'c'])
df.plot.area(stacked=False);

png

  • 类型2:堆积面积图
df.plot.area();

png

三、散点图 Scatter Chart

  • 散点图的用途

散点图是指数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,通常用于回归分析,据此可以选择合适的函数对数据点进行回归拟合。
多组散点图通常用于聚类,能直观地看出每组数据点的分布。

  • 类型1:散点图
df = pd.DataFrame(np.random.rand(50, 4), columns=['a', 'b', 'c', 'd'])
df.plot.scatter(x='a', y='b');

png

  • 类型2:多组散点图
ax = df.plot.scatter(x='a', y='b', color='DarkBlue', label='Group 1');
df.plot.scatter(x='c', y='d', color='DarkGreen', label='Group 2', ax=ax);

png

类型3:

df.plot.scatter(x='a', y='b', c='c', s=50);

png

类型4:

df.plot.scatter(x='a', y='b', s=df['c']*200);

png

谢谢大家的浏览,
希望我的努力能帮助到您,
共勉!

猜你喜欢

转载自blog.csdn.net/weixin_38168620/article/details/79810347