一、数据框
1.数据框是一种表格式的数据结构。数据框旨在模拟数据集,与其他统计软件SAS或者SPSS中的数据集的概念一致。数据集通常是由数据构成的一个矩形数组,行表示观测,列表是变量。
2.数据框实际上是一个列表。列表中的元素是向量,这些向量构成数据框的列,每一列必须具有相同的长度,所以数据框是矩形结构,而且数据框的列必须命名。每一列必须是同一数据类型,行可以不同。
1.创建数据框,例如:
2.数据框中内容的查询与列表类似。
3.两种列内容的查询方式
二、因子
1.变量分类
名义型变量
有序型变量
连续型变量
2.因子,在R中名义型变量和有序型变量称为因子,factor。这些分类变量的可能值称为一个水平。由这些水平值构成的向量就称为因子。
3.因子的应用
计算频数、独立性检验、相关性检验、方差分析、主成分分析、因子分析...
将向量转换为因子:
四、缺失数据
1.在R中,NA代表缺失值,NA是不可用的意思,用来存储缺失信息。
2.在计算中有如下属性:
3.数据集中缺失值的查询方式,以sleep数据集为例:
4.删除缺失值:
如果直接处理矩形数据集会删掉包含 NA 的行。
5.其他缺失数据:
NaN,代表不可能的值
Inf表示无穷
五、字符串的处理
1.统计字符串长度
2.合并字符型元素
3.提取字符串
4.分割字符串
5.字符型向量的合并
六、日期和时间
1.时间序列
时间数据 m
as.Date(m,format)函数
常见的:月日年格式 as.Date(m,format = "%B%d%Y")
加入星期 as.Date(m,format = "%B%d%Y%A")
输出系统时间 Sys.time()
2.将字符串转换成POSIXct/POSIXlt时间格式
as.POSIXct("March-17-2020 17:00:00",format = "%B-%d-%Y %H:%M:%S")