三 探索数据

3.1鸢尾花数据集

在这里插入图片描述

3.2 汇总统计

用单个数或数的小集合捕获可能很大的值集的各种特征。

3.2.1 频率和众数

在这里插入图片描述

3.2.2 百分位数

对有序数据而言

3.2.3 位置度量:均值和中位数

对于连续数据而言
在这里插入图片描述

3.2.4 散布度量:极差和方差

极差:
在这里插入图片描述
方差:
在这里插入图片描述
绝对平均方差:
在这里插入图片描述
中位数绝对偏差:
在这里插入图片描述
四分位数极差:
在这里插入图片描述

3.2.5多元汇总统计

协方差:衡量两个变量的线性关系
连续变量的属性数据的散布:协方差矩阵S
在这里插入图片描述
相关矩阵:
在这里插入图片描述

3.2.6 汇总数据的其他方法

值集的倾斜度:度量值对称分布在均值附近的程度。

3.3.可视化

3.3.1 可视化的动机

快速吸取大量可视化信息,并发现其中的模式。
利用锁在人脑袋中的领域知识。

3.3.2 一般概念

1.表示:将数据映射到图形元素
2.安排
3.选择

3.3.3 技术

1.少量属性的可视化
茎叶图:一维整型或连续数据的分布。
直方图:茎叶图的立方图化
二维直方图
盒状图(箱型图):显示一维数值属性值分布的方法
饼图
散布图:数据对象的两个属性;显示两个属性之间的关系,考察两个属性将类分开的程度。
三维散布图
2.可视化时间空间数据
等高线图:两个属性指定平面的位置,而第三个属性具有连续值。
曲面图:第三个属性指示高出前两个属性定义的平面高度
在这里插入图片描述
矢量场图:数据特征具有值和方向
低维切片:组图
动画

扫描二维码关注公众号,回复: 4036991 查看本文章

3.3.4 可视化高维数据

矩阵:矩阵值类比成图像的像素,重组织矩阵行列使图像更加实用。
平行坐标系:一个属性一个坐标轴,与传统坐标系不同,平行坐标系不同的坐标轴平行,不是正交的。还有对象用线而不是用点,对象每个属性的值映射到与该属性相关联的坐标轴上的点。

在这里插入图片描述
星形坐标和Chernoff脸
每个属性使用一个坐标轴,坐标轴从一个中心点向四周辐射。
在这里插入图片描述
在这里插入图片描述
特征对象映射到图形,比如脸:脸谱图
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.4 OLAP和多维数据分析

将数据集看作多维数组,OLAP:联机分析处理。

3.4.1用多维数组表示鸢尾花数据

在这里插入图片描述

3.4.2 多维数据:一般情况

事实表:表的形式表示数据
维数:属性个数
维大小:属性的取值个数
维的数组下标:属性值
多维数组的单元:属性值的每个组合
每个单元的内容代表一个我们在分析时感兴趣的目标量的值

3.4.3 分析多维数据

1.数据立方体:计算聚集量
2.维规约和转轴
维规约:通过计算某一维度的聚集量来降维
转轴:指在除两个维之外的所有维上的聚集,结果是一个二维交叉表
3.切片和切块
4.上卷和下钻:属性值再操作:聚集(上卷),分解(下钻)

猜你喜欢

转载自blog.csdn.net/DMU_lzq1996/article/details/83933152