周志华《机器学习》西瓜书 小白Python学习笔记(一) ———— 第一章 绪论 & 第二章 模型评估与选择

周志华《机器学习》西瓜书 小白Python学习笔记(一)——第一章 绪论 & 第二章 模型评估与选择

写在最前

博主是统计专业本科在读,之前利用一个学期的时间粗略地学习《机器学习》全书一遍,了解了书中知识理论的基本情况。准备申请机器学习相关专业的研究生,无奈第一遍的学习太过于浮于表面,于是决定回锅学习第二遍!这一遍的重点将放在对算法流程的理解与Python的实现,希望通过这一遍的学习之后,能够独立搭建起相关算法的框架。概括地说,就是一个小白学习Python实现机器学习算法的过程,希望能给有相似经历的朋友们一些启发,更欢迎大家指导、相互交流学习~~

第一章 绪论 & 第二章 模型评估与选择

既然是开始学习机器学习这个学科,肯定会有“那究竟什么是机器学习?”等等问题。
合上书本,让我们来看下面的例子。看完之后,大家会对机器学习与基本术语的有一个大概的了解。

借助周志华老师贯穿全书的“西瓜”。对于西瓜来说,我们所关注的是瓜是不是好吃,换句话说就是,我们要判断一个西瓜是“好瓜”还是“坏瓜”。但是当我们到市场买西瓜的时候一般是无法切开或者品尝的,就需要根据我们已有的经验,比如说瓜皮的色泽瓜蒂的状态、以及拍打的声响(这个估计是大家经常尝试的哈哈哈),来判断一个瓜是不是好瓜,以此来帮助我们买到好瓜。接着看下面的一个小故事:

小明的老婆很喜欢吃西瓜,由于连续几次买到了没熟的瓜,被老婆训斥,小明下决心提高辨别好瓜坏瓜的技巧,努力变成一个“买瓜达人”,来获得老婆的芳心。
小明一气之下在市场不加挑选随机地买了100个西瓜放到了自己的秘密仓库中,给他们编号1-100。
首先,取出前70号西瓜堆在一起,与另外30个西瓜分隔开,然后拿笔记本记录下来每个西瓜的三个特征的情况,分别是 “色泽”“瓜蒂”“拍打声”,并把每个西瓜拿刀切开品尝,记录是 “好瓜” 还是 “坏瓜”
之后,小明拿着记录着1-70号西瓜“色泽”、“瓜蒂” 、 “拍打声”和“好瓜还是坏瓜”四项信息的笔记本来到了自己的书房,研究这70个西瓜三个特征与好瓜之间的关系,企图发现其内在规律,将其变成自己买瓜的经验。经过三天三夜的研究,小明总结出了了一套
*“买瓜秘笈”**,根据这套卖瓜秘笈的方法,小明可以正确判断出这70个西瓜中的65个,正确率高达87%!
于是,小明胸有成竹地走出书房,来到自己藏着另外30个西瓜的仓库,准备真刀真枪检验一下自己“买瓜秘笈”的效果。分别观察71-100号30个西瓜的三个特征,小明根据自己的秘笈,判断这30个西瓜是不是好瓜。记录下自己的答案后,小明将71-100号西瓜切开品尝,得知每个瓜是不是好瓜之后与自己的判断进行对比,仔细观察,小明将10个坏瓜中的1个判别为了好瓜,将20个好瓜中的两个判别成了坏瓜,正确率高达90%,!
就这样,小明变成了“买瓜达人”,不仅俘获了老婆的芳心,甚至隔壁李奶奶都会来找他帮忙买瓜……*

现在让我们回过头来看上面的例子,我们可以引出一些机器学习中的基本术语,将其分为基本概念与模型评估两类:

1.基本概念

  • 机器学习:在故事中小明进行那三天三夜在书房中的研究工作用计算机来完成,就是指的“机器学习”的过程了。说明白点就是,指的利用计算机来学习小明买的1-70号已经切开的瓜的相关信息,使得在之后在面对一个新的没有切开的瓜的时候,计算机可以给出它是不是一个好瓜的判断。
    用科学的语言就是,一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。
  • 样本:每一个西瓜就是一个样本。
  • 属性:西瓜的“色泽”、“瓜蒂”、“拍打声音”就是西瓜的属性。属性的集合叫属性空间。
  • 记录:每个西瓜的相关信息数据,就称为一条记录,例如(色泽=鲜绿,瓜蒂=蜷缩,拍打声音=浑浊)。
  • 标记:西瓜的“好瓜”和“坏瓜”,即表示样本结果的信息。标记的集合称为标记空间。
  • (无)监督学习:由是否存在标记信息可以引出学习任务的一种分类方式,监督学习和无监督学习。
    监督学习就是指的在学习之前我们已经拥了标记信息。也就是在学习之前我们已经明确知道切开品尝之后什么样的瓜是好瓜,什么样的瓜是坏瓜。无监督学习则相反。
  • 训练样本:指的小明一开始挑出并切开供自己学习的1-70号中的任意一个西瓜,即学习计算中用到的样本。训练样本的集合构成训练集。
  • 测试样本:指的小明留起来供自己学得“秘笈”之后检测“秘笈”效果的71-100号中任意一个西瓜。测试样本的集合构成测试集。
  • 学习器:经过学习后形成的模型等,如小明的“买瓜秘笈”。

2.模型的评估

  • 泛化性能:小明经过三天研究得到了“买瓜秘笈”,目的当然不是秘笈可以将训练集中已经全部切开的西瓜全部判断对,而是想要提高面对测试集或新的西瓜时的判断效果,面对新的样本时判断正确的能力就称为学习器的泛化能力
  • 精度:指的便是文中出现的两个正确率中的第一个值为87%的正确率。即对训练样本分类的正确率。不进行测试,我们就很难了解学习器的判断能力,所以我们通常只能试图提高学习器在训练集中的表现,比如提高精度。
  • 错误率:错误率=1-正确率。
  • 过拟合与欠拟合:
    过拟合指的是将训练样本很特殊的特征当作所有样本的特征,比如训练集中有一些好瓜的瓜皮上存在一些斑点,显然这是西瓜中很少见特殊的特点。如果学习器捕捉到了这些特点,即认为满足一般好瓜的色泽、瓜蒂和响声等特征之外还要有斑点才是好瓜,面对一个没有斑点的但是是好瓜新瓜的时候,就很可能认为其不是好瓜,产生误判。
    欠拟合就是指的对于训练集的一般性质尚未学好,比如小明如果只研究了瓜蒂和响声的特征,而看到了一个还泛白的瓜的时候有可能也将其判为好瓜,是因为小明没有学习训练样本的色泽特征。
  • 查准率:小明预测为好瓜(18+1=19个)中实际为好瓜(10个)的比例,即预测的正确率。
  • 查全率:实际为好瓜(20个)中被小明预测好瓜(18个)的比例。也就是查全率越高,我们就越能将所有的好瓜选出来,但是要注意此时很难避免将一些坏瓜也判为好瓜。
    也就是说查全率与查全率是一对矛盾的度量
  • 性能度量:以上提到的精度、错误率、查准率与查全率等对学习器泛化性能评估的度量,都属于性能度量。
  • 另外,通常需要将样本集分出训练集与测试集,小明将100个西瓜分为70个与30个分别作为训练集与测试集的办法叫做留出法,除此之外还有交叉验证自助法等。

以上便是通过一个小故事对第一章与第二章中的一些基本术语的梳理,博主认为此处对概念有一个基本的认识就可以了,在后面的学习中会逐步加深理解,此处无需太费精力纠结一些概念。

发布了1 篇原创文章 · 获赞 4 · 访问量 41

猜你喜欢

转载自blog.csdn.net/River_J777/article/details/105279136