数值规约通过选择替代的、较少的数据来减少数据量,包括有参数方法和无参数方法。
1、有参数方法。使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,如回归。
2、无参数方法。需要存放实际数据。
(1)直方图。如一连串的数据,通过绘制直方图(R中用hist()函数绘制直方图),分为“3~15”、“16~28”、“29~41”三个范围。
(2)聚类。将对象划分为簇,使一个簇中的对象相互“相似”,而与其他簇中的对象“相异”,用数据的簇替换实际数据。
(3)抽样。R实现:newD = D[sample(N,s,replace=T/F),]