SAS(二)SAS基本数据类型及SAS基本模块的介绍
SAS基本介绍
SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生研制,1976 年创立SAS公司, 2006年全球员工总数10000人,全球财富500强中的前100家企业有96家使用SAS软件进行“商业智能(Business Intelligence, BI)”上的应用,SAS软件采用按年租用收费制,2005年SAS公司收入16.8亿美元。在数据处理领域,SAS系统具有十分完备的数据访问、数据管理、数据分析和数据呈现的功能。国际上, SAS被誉为数据统计分析的标准软件。SAS软件是一个模块组合式的系统,共有三十多个功能模块,其中最基础的是BASE模块,专门用于统计分析的有STAT模块,专门用于时间序列分析的有ETS模块。SAS软件是用汇编语言编写而成的,使用SAS软件通常需要编写程序,因此比较适合专业统计人员使用,非统计专业人员学习SAS比较困难,SAS软件最新版为9.13版,SAS公司的网址是http://www.sas.com。
SAS基本数据类型
数据集:数据的集合,由样本(行)和变量(列)组成
a. 横截面数据集(cross-sectional data set):即给定时点对个人、家庭、企业、国家或一系列其他单位采集的样本所构成的数据集(应该忽略细小的时间差别)
|
变量1 |
变量2 |
变量3 |
变量4 |
样本1 |
|
|
|
|
样本2 |
|
|
|
|
样本3 |
|
|
|
|
样本4 |
|
|
|
|
b.时间序列数据集(time series data set):是由一个或几个变量在不同时间的观测值所构成的。
|
变量1 |
变量2 |
变量3 |
变量4 |
时间1 |
|
|
|
|
时间2 |
|
|
|
|
时间3 |
|
|
|
|
时间4 |
|
|
|
|
c.混合横截面数据集(pooled cross section data set):有些数据既有横截面数据的特点又有时间序列的特点,但每一时点的样本不同。
|
|
变量1 |
变量2 |
变量3 |
变量4 |
时间1 |
样本1 |
|
|
|
|
样本2 |
|
|
|
|
|
时间2 |
样本3 |
|
|
|
|
样本4 |
|
|
|
|
|
时间3 |
样本5 |
|
|
|
|
样本6 |
|
|
|
|
|
时间4 |
样本7 |
|
|
|
|
样本8 |
|
|
|
|
d.综列数据集(panel data set):由横截面数据集中每个样本的一个时间序列组成。(定点长期调查)
|
|
变量1 |
变量2 |
变量3 |
变量4 |
时间1 |
样本1 |
|
|
|
|
样本2 |
|
|
|
|
|
时间2 |
样本1 |
|
|
|
|
样本2 |
|
|
|
|
|
时间3 |
样本1 |
|
|
|
|
样本2 |
|
|
|
|
|
时间4 |
样本1 |
|
|
|
|
样本2 |
|
|
|
|
|
|
变量1 |
变量2 |
变量3 |
变量4 |
样本1 |
时间1 |
|
|
|
|
时间2 |
|
|
|
|
|
时间3 |
|
|
|
|
|
时间4 |
|
|
|
|
|
样本2 |
时间1 |
|
|
|
|
时间2 |
|
|
|
|
|
时间3 |
|
|
|
|
|
时间4 |
|
|
|
|
数据类型
1、离散数据(discrete data):通常在考察个人、家庭或企业的决策行为时,通过问卷调查获得,由此发展出“离散选择模型”
2、持续数据(survival data):用于考察变量从开始到结束或调查终止前所经过的时间长度,如失业持续时间、罢工持续时间、甚至怀孕间隔
3、cohort(一代人) data :为持续收集特定社会群体在一段时间内的变化的数据。如:调查七十年代出生的样本在10年间的汽车持有率数据或就业率数据等。
SAS功能模块
SAS系统是由众多模块组成的系统,其中Base SAS模块是SAS系统的核心,其它各模块均在Base SAS提供的环境中运行,用户可选择需要的模块与Base SAS一起构成一个用户化的SAS系统,以下为模块功能介绍(SAS是有非常多的模块的,在学习的时候我们只需要掌握几个比较常用的模块即可,而且随着版本不断地完善,模块也会越来越多,越来越人性化):
1、Base SAS
Base SAS作为SAS系统的核心,负责数据管理,交互应用环境管理,进行用户语言处理,调用其它SAS模块。Base SAS 为SAS系统的数据库提供了丰富的数据管理功能,还支持标准的SQL语言对数据进行操作。Base SAS能够制作从简单列表到比较复杂的统计报表。 Base SAS可进行基本的描述性统计及基相关 系数的计算,进行正态分布检验等。
2、SAS/GHAPH
SAS/GHAPH可将数据及其包含着的深层信息以多种图形生动地呈现出来,如直方图、圆饼图、星形图、散点相关图、曲线图、三维曲面图、等高线图及地理图等。SAS/GHAPH提供一个全屏幕编辑器,提供多种设备程序,支持非常广泛的图形输出设备以及标准的图形交换文件。
3、SAS/ASSIST
SAS/ASSIST为SAS系统提供了面向任务的菜单界面,借助它可以通过菜单系统来使用SAS系统其它产品。它自动生成的SAS程序既可辅助有经验的用户快速编写SAS程序,又可帮助用户学习SAS。
4、SAS/AF
SAS/AF是一个应用开发工具。用户使用SAS/AF可将包含众多功能的SAS软件作为方法库,利用 SAS/AF的屏幕设计能力以及SCL语言的处理能力来快速开发各种功能强大的应用系统。SAS/AF也了采用了OOP(面向对象编辑)技术,使用户可方便快速开发各类具有图形用户界面(GUI)的应用系统。
5、SAS/EIS
SAS/EIS是决策工具,也是一个快速应用开发工具。SAS/EIS完全采用新兴的面向对象的编程模式(OOP)。EIS以生动直观的方式(图或表)将关键性或总结性信息呈现给使用者。
6、SAS/ACCESS
为了对众多不同格式的数据进行查询、访问和分析,SAS/ACCESS提供了与目前许多流行数据库软件的接口,利用SAS/ACCESS,可建立外部其它数据库的一个统一的公共数据界面。SAS/ACCESS提供的接口是透明的和动态的。用户不必将此文件当作真正存储着数据 的SAS数据集一样使用,而只需在SAS中建立对外部的描述(即VIEW)文件,便可将此文件当作真正存储着数据的SAS数据集一样使用。对一些经常使用的外部数据,可以利用SAS/ACCESS将数据真正提取进入SAS数据库。 SAS/ACCESS 提供的接口是双向的,既可将数据读入SAS,也可在SAS中更新外部数据或将SAS数据加载到外部数据库中。目前,SAS/ACCESS支持的数据库主要有:IML-DL/I,SQL/DS,DB2,ADABAS,Rdb,ORACLE,Sybase,INGRES,Informix,DBF/DIF,ODBC等。
7、SAS/STAT
SAS/STAT覆盖了所有的实用数理统计分析方法,是国际统计分析领域的标准软件。 SAS/STAT提供了十多个过程,可进行各种不同模型或不同 特点数据的回归分析,如正交回归/面回归、响应面回归、logistic回归、非线性回归等,且具有多种模型选择方法。可处理的数据有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面, SAS/STAT为多种试验设计模型提供了方差分析工具。另外,它还有处理一般线性模型和广义线性模型的专用过程。在多变量统计方面, SAS/STAT为主成分分析、典型相关分析、判别分析和因子分析提供了许多专用过程。SAS/STAT还包含多种聚类准则的聚类分析方法。
8、SAS/QC
SAS/QC为全面质量管理提供了一系列工具。它也提供一套全屏幕菜单系统引导用户进行标准的统计过程以及试验设计。SAS/QC提供了多种不同类型控制图的制作与分析。Pareto图(排列图)可用于发现需优先考虑的因素,Ishikawa图(鱼骨图)可用于直观地进行因果分析。
9、SAS/ETS
SAS/ETS提供丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。它提供方便的模型设定手段、多样的参数估计方法。
10、SAS/OR
SAS/OR提供全面的运筹学方法,是一种强有力的决策支持工具。它辅助人们实现对人力、时间以及其它各种资源的最佳利用。 SAS/OR包含通用的线性规划、混合整数规划和非线性规划的求解,也为专门的规划问题提供更为直接的解决办法,如网络流问题、运输问题、分配问题等。
11、SAS/IML
SAS/IML提供功能强大的面向矩阵运算的编程语言,帮助用户研究新算法或解决SAS中没有现成算法的专门问题。SAS/IML中的基本数据元素是矩阵。它包含大量的数学运算符、函数和例行程序,用户用很少的语句便可执行很复杂的计算过程。
12、SAS/WA
SAS/WA(Warehouse Administrator)是建立数据仓库的集成工具,它在其它SAS软件的基础上提供了一个建立数据仓库的管理层,包括:定义数据仓库和主题,数据转换和汇总,汇总数据的更新,Metadata的建立、管理和查询,Data marts和Info marts的实现。
13、SAS/MDDB Server
SAS/MDDB Server是SAS的多维数据库产品,主要用于在线分析处理(OLAP),可将从数据仓库或其它数据源来的数据以立体阵列的方式存储,以便于用多维数据浏览器等工具快速和方便地访问。
14、SAS/IntrNet
SAS/IntrNet为SAS Web应用提供了数据服务和计算服务,包括htmSQL,它为一UNIX Web服务器的CGI程序,使得能通过支持Web浏览器动态查询SAS数据或外部的关系型数据库;SAS ODBC Driver使得能通过支持ODBC的Windows Web服务器来访问SAS数据;SAS Driver for JDBC使得可以通过Java applet来查询SAS数据; SAS/IntrNet Application Dispatcher使得可以通过Web浏览器动态地递交SAS程序到SAS应用服务器执行,并将结果返回浏览器。
15、SAS/GIS
SAS/GIS集地理位置系统功能与数据的显示分析于一体。它提供层次化的地理信息,每一层可以是某些地理元素,也可与用户定义的主题(例如:人口、产值等)相关联。用户可交互式地缩小或放大地图,设定各层次显示与否,并利用各种交互式工具进行数据显示与分析。
16、SAS/ITSV
IT Service Vision(ITSV)是企业的全面IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。ITSV将不同来源的数据进行整理和组织,存放于性能数据仓库中,用GUI或批处理的方式产生组织任意层面的报告。系统程序员及网络工程师能借此识别、研究并解决有关问题,业务分析人员能借此制定资源管理的总体策略,CIO和数据中心经理能借此定期地得到所需的IT运作的汇总和分析报告。
17、SAS/CFO Vision
SAS/CFO Vision用于财务整合和报告,内部包含了会计知识,为日常财务工作提供了现成的程序,并提供了访问所有主要数据源的接口。它主要用于;访问财务和非财务的有关住处整合财务数据,通过一个财务信息仓库来管理业务结构,通过财务报告和分析帮助理解财务的结果,并在组织内交流关键的业务结果信息。