001 - 了解数据统计和基础

今天是我加入Udacity课程的第一天,我会坚持学习,写笔记。话不多说,开始!

一、数据分析初探

LESSON 1

了解数据统计和基础

数据(英语:data),是指未经过处理的原始记录。一般而言,数据缺乏组织及分类,无法明确的表达事物代表的意义,它可能是一堆的杂志、一大叠的报纸、数种的开会记录或是整本病人的病历纪录。数据描述事物的符号记录,是可定义为意义的实体,涉及事物的存在形式。是关于事件之一组离散且客观的事实描述,是构成消息和知识的原始材料。
——摘自《维基百科》

数据类型

首先,我们将介绍两种数据类型:数值数据和分类数据。
数值数据 采用允许我们执行数学运算(例如计算狗的数量)的数值。
分类数据 用于标记一个群体或一组条目(例如狗的品种 —— 牧羊犬、拉布拉多、贵宾犬等)。
 

给数据分类练习1

请确定下面的数据类型为数值还是分类?

变量 数据类型
邮政编码
年龄
收入
婚姻状况(单身、已婚、离婚等)
身高

给数据分类练习2

变量 数据类型
字母成绩等级(A+、A、A-、B+、B、B-…)
上班通勤距离
调查评分(差、好、很好)
温度
平均速度

分类定序与分类定类

我们可以进一步将 分类数据 分为两类: 定序与定类。

分类定序 数据有排名顺序(例如与狗的互动从 很差 到 很好 排序)。

分类定类 数据没有排序或排名(如狗的品种)。

连续与离散数据

我们可以将 数值数据 视为连续或离散的。

连续数据可以分为更小的单位,并且仍然存在更小的单位。一个例子就是狗的年龄 - 我们可以以年、月、日、小时、秒为单位测量年龄,但是仍然存在可以与年龄关联的更小单位。

离散数据仅采用可数值。我们互动的狗的数量就是离散数据类型的一个例子。

Alt
时间显然是连续数据,时间可以无线小地分割
 

概括

下表总结了我们的数据类型。
这里有个图片!

再次梳理一下

数值与分类
其中一些可能有点棘手 —— 虽然邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。

身高年龄、书中的页数和年收入采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是数值数据。
性别、字母成绩等级、早餐类型、婚姻状态和邮政编码可以视为一组物品或个人的标签。因此,它们是分类数据。

连续和离散
要区分我们的数据是连续还是离散的,要看我们是否能将数据分割成更小的单元。想想时间 —— 我们可以用年、月、日、小时、分钟或秒来衡量一个事件,甚至是在秒级,我们知道仍然有更小的单位可以用来衡量时间。因此,我们知道此数据类型为连续的。身高、年龄和收入都是连续数据的例子。或者,我们知道书中的页数、我数的咖啡店外的狗数量或院子里的树为离散数据。我们可不想将狗一分为二。

定序与定类
在看定类变量时,我们发现性别、婚姻状态、邮政编码和早餐食品为定类变量,这种类型的数据没有相关的顺序排列。无论你早餐吃麦片粥、吐司、鸡蛋还是只喝咖啡,它并没有相关的排序。
相反,字母成绩等级或调查评级作为定序数据具有关联的排序。如果获得 A,它高于 A-。A- 的排名高于 B+,以此类推……定序变量在评级量表上很常见。在很多情况下,我们将这些定序变量变为数字,这样可以更容易地进行分析,稍后我们再详细说明这一点!

个人总结

对数据分类可以让我们更加清晰地认识数据,数据大致分为两类:数值与分类,两类数据又各自分为连续与离散,定序与定类。数值数据中的离散数据与连续数据的实际界限不那么明确,因为我们时长把连续的曲线经过采样离散化,比如图片数据,其实是一个个离散的像素单元的拼接。同样在数学上我们有一个定理叫海涅定理,这个定理可以把离散数列的极限问题归结为连续函数的极限问题,所以这个定理也叫归结原理。分类数据中定类与定序最大的区别为,定类数据中不同数据没有直接联系,而定序数据中不同数据往往有着直接的大小关系或者前后关系等等。

声明:以上文本大部分来着Udacity网站数据分析课程的文档。我会在学习过程中把自己对课程的见解也全都写在笔记中,如果你希望获得系统的数据分析学习,建议去官网报名。(狗头)

猜你喜欢

转载自blog.csdn.net/qq_37281522/article/details/85010626
001