3.1鸢尾花数据集
3.2 汇总统计
用单个数或数的小集合捕获可能很大的值集的各种特征。
3.2.1 频率和众数
3.2.2 百分位数
对有序数据而言
3.2.3 位置度量:均值和中位数
对于连续数据而言
3.2.4 散布度量:极差和方差
极差:
方差:
绝对平均方差:
中位数绝对偏差:
四分位数极差:
3.2.5多元汇总统计
协方差:衡量两个变量的线性关系
连续变量的属性数据的散布:协方差矩阵S
相关矩阵:
3.2.6 汇总数据的其他方法
值集的倾斜度:度量值对称分布在均值附近的程度。
3.3.可视化
3.3.1 可视化的动机
快速吸取大量可视化信息,并发现其中的模式。
利用锁在人脑袋中的领域知识。
3.3.2 一般概念
1.表示:将数据映射到图形元素
2.安排
3.选择
3.3.3 技术
1.少量属性的可视化
茎叶图:一维整型或连续数据的分布。
直方图:茎叶图的立方图化
二维直方图
盒状图(箱型图):显示一维数值属性值分布的方法
饼图
散布图:数据对象的两个属性;显示两个属性之间的关系,考察两个属性将类分开的程度。
三维散布图
2.可视化时间空间数据
等高线图:两个属性指定平面的位置,而第三个属性具有连续值。
曲面图:第三个属性指示高出前两个属性定义的平面高度
矢量场图:数据特征具有值和方向
低维切片:组图
动画
![](/qrcode.jpg)
3.3.4 可视化高维数据
矩阵:矩阵值类比成图像的像素,重组织矩阵行列使图像更加实用。
平行坐标系:一个属性一个坐标轴,与传统坐标系不同,平行坐标系不同的坐标轴平行,不是正交的。还有对象用线而不是用点,对象每个属性的值映射到与该属性相关联的坐标轴上的点。
星形坐标和Chernoff脸
每个属性使用一个坐标轴,坐标轴从一个中心点向四周辐射。
特征对象映射到图形,比如脸:脸谱图
3.4 OLAP和多维数据分析
将数据集看作多维数组,OLAP:联机分析处理。
3.4.1用多维数组表示鸢尾花数据
3.4.2 多维数据:一般情况
事实表:表的形式表示数据
维数:属性个数
维大小:属性的取值个数
维的数组下标:属性值
多维数组的单元:属性值的每个组合
每个单元的内容代表一个我们在分析时感兴趣的目标量的值
3.4.3 分析多维数据
1.数据立方体:计算聚集量
2.维规约和转轴
维规约:通过计算某一维度的聚集量来降维
转轴:指在除两个维之外的所有维上的聚集,结果是一个二维交叉表
3.切片和切块
4.上卷和下钻:属性值再操作:聚集(上卷),分解(下钻)