今天是我加入Udacity课程的第一天,我会坚持学习,写笔记。话不多说,开始!
一、数据分析初探
LESSON 1
了解数据统计和基础
数据(英语:data),是指未经过处理的原始记录。一般而言,数据缺乏组织及分类,无法明确的表达事物代表的意义,它可能是一堆的杂志、一大叠的报纸、数种的开会记录或是整本病人的病历纪录。数据描述事物的符号记录,是可定义为意义的实体,涉及事物的存在形式。是关于事件之一组离散且客观的事实描述,是构成消息和知识的原始材料。
——摘自《维基百科》
数据类型
首先,我们将介绍两种数据类型:数值数据和分类数据。
数值数据 采用允许我们执行数学运算(例如计算狗的数量)的数值。
分类数据 用于标记一个群体或一组条目(例如狗的品种 —— 牧羊犬、拉布拉多、贵宾犬等)。
给数据分类练习1
请确定下面的数据类型为数值还是分类?
变量 | 数据类型 |
---|---|
邮政编码 | |
年龄 | |
收入 | |
婚姻状况(单身、已婚、离婚等) | |
身高 |
给数据分类练习2
变量 | 数据类型 |
---|---|
字母成绩等级(A+、A、A-、B+、B、B-…) | |
上班通勤距离 | |
调查评分(差、好、很好) | |
温度 | |
平均速度 |
分类定序与分类定类
我们可以进一步将 分类数据 分为两类: 定序与定类。
分类定序 数据有排名顺序(例如与狗的互动从 很差 到 很好 排序)。
分类定类 数据没有排序或排名(如狗的品种)。
连续与离散数据
我们可以将 数值数据 视为连续或离散的。
连续数据可以分为更小的单位,并且仍然存在更小的单位。一个例子就是狗的年龄 - 我们可以以年、月、日、小时、秒为单位测量年龄,但是仍然存在可以与年龄关联的更小单位。
离散数据仅采用可数值。我们互动的狗的数量就是离散数据类型的一个例子。
时间显然是连续数据,时间可以无线小地分割
概括
下表总结了我们的数据类型。
再次梳理一下
数值与分类
其中一些可能有点棘手 —— 虽然邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。
身高、年龄、书中的页数和年收入采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是数值数据。
性别、字母成绩等级、早餐类型、婚姻状态和邮政编码可以视为一组物品或个人的标签。因此,它们是分类数据。
连续和离散
要区分我们的数据是连续还是离散的,要看我们是否能将数据分割成更小的单元。想想时间 —— 我们可以用年、月、日、小时、分钟或秒来衡量一个事件,甚至是在秒级,我们知道仍然有更小的单位可以用来衡量时间。因此,我们知道此数据类型为连续的。身高、年龄和收入都是连续数据的例子。或者,我们知道书中的页数、我数的咖啡店外的狗数量或院子里的树为离散数据。我们可不想将狗一分为二。
定序与定类
在看定类变量时,我们发现性别、婚姻状态、邮政编码和早餐食品为定类变量,这种类型的数据没有相关的顺序排列。无论你早餐吃麦片粥、吐司、鸡蛋还是只喝咖啡,它并没有相关的排序。
相反,字母成绩等级或调查评级作为定序数据具有关联的排序。如果获得 A,它高于 A-。A- 的排名高于 B+,以此类推……定序变量在评级量表上很常见。在很多情况下,我们将这些定序变量变为数字,这样可以更容易地进行分析,稍后我们再详细说明这一点!
个人总结
对数据分类可以让我们更加清晰地认识数据,数据大致分为两类:数值与分类,两类数据又各自分为连续与离散,定序与定类。数值数据中的离散数据与连续数据的实际界限不那么明确,因为我们时长把连续的曲线经过采样离散化,比如图片数据,其实是一个个离散的像素单元的拼接。同样在数学上我们有一个定理叫海涅定理,这个定理可以把离散数列的极限问题归结为连续函数的极限问题,所以这个定理也叫归结原理。分类数据中定类与定序最大的区别为,定类数据中不同数据没有直接联系,而定序数据中不同数据往往有着直接的大小关系或者前后关系等等。
声明:以上文本大部分来着Udacity网站数据分析课程的文档。我会在学习过程中把自己对课程的见解也全都写在笔记中,如果你希望获得系统的数据分析学习,建议去官网报名。(狗头)