机器学习绪论

版权声明:不经过同意,禁止转载。 https://blog.csdn.net/qq_34218078/article/details/82883793

一、引言

  从历史发展来说,在二十世纪八十年代的时候,符号学习可能还是机器学习的主流,到二十世纪九十年代,就一直是统计学习的天下。

符号机器学习主要以离散方法处理问题,统计机器学习时代主要以连续方法处理问题。

深度学习并不是机器学习未来的新方向,深度学习掀起的热潮大过于它本身的真正贡献,在理论和技术上并没有太多的创新,只不过是由于硬件技术的革命,计算机技术的大大提升,使得人们有可能采用原来复杂的很的算法,从而得到比过去跟精细的结果。

二、基本术语

  好瓜的评判标准,色泽青绿、根蒂卷缩、敲声浑浊。加入我们收集了一批西瓜的数据,

  这批西瓜称为‘数据集’,每一个西瓜称为‘实例’或‘样本’、‘实例’或‘样本’。色泽、根蒂、敲声称为属性特征,青绿、卷缩、浑浊称为称为属性值,如果把色泽、根蒂、敲声作为三个坐标轴,则他们张成一个用于描述西瓜的三维空间,因此我们把一个实例称为‘特征向量’,从数据中学的模型的过程称为‘学习’或‘训练’。

  训练过程中使用的数据称为‘训练数据’,其中每一个样本称为‘训练样本’,训练样本组成的集合称为‘训练集’,这里关于实例结果的信息,例如‘好瓜’称为‘标记’,若我们想预测的是离散值,例如‘好瓜’‘坏瓜’,此类学习称为‘分类’。若我们想预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为‘回归’。学习模型后,使用其进行预测的过程称为‘测试’,被预测的样本称为‘测试样本’,

  将训练集中的西瓜分成若干组,称为‘聚类’,每一组称为‘’;这些自动形成的镞可能对应一些潜在的概念划分,例如:深色瓜、浅色瓜;本地瓜、外地瓜,这样的学习有助于了解数据的内在规律。这样的概念是我们事前不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。

  训练样本时候拥有标记信息,学习任务可大致分为两类:‘监督学习’和‘无监督学习’,分类的回归是前者的代表,聚类是后者的代表

  机器学习的目的是使得学习到的模型能很好的适用于‘新样本’,而不仅仅是在训练样本上做的很好,学习到的模型适用于新样本的能力,称为‘泛化’能力。通常假设样本空间中全体样本服从一个未知‘分布’D,我们获得的每个样本都是独立地从这个分布上采样获得的,即‘独立同分布’,一般而言,训练完本越多,我们得到关于D的信息就越多,这样就越有可能通过学习获得具有泛化能力较强的模型。

三、假设空间

  归纳:从特殊到一般的‘泛化’过程,即从具体的事情归纳出一般性规律

  演绎:从一般到特殊的‘特化’过程,即从基础原理推演出具体状况

  “从样例中学习”显然是一个归纳的过程,因此亦称“归纳学习”,归纳学习有狭义和广义之分,广义的归纳学习是从样例中学习;狭义的归纳学习也称为‘概念学习’,则要求从训练数据中学得概念。

  概念学习中最基本的就是布尔概念学习,机器学习的目的就是“泛化”,即通过对训练集中的样本的学习以获得对没见过的瓜进行判断的能力。我们可以把学习过程看作在所有‘假设空间’中进行搜索的过程,搜索目标是能够将训练集中的瓜判断正确的假设,假设一旦确定,假设空间及其规模大小就确定了。但是需要注意的是,现实问题中我们面临很大的假设空间,但学习过程是基于有限样本训练集进行的,可能有多个假设与训练集一致,即存在着一个与训练集一致的‘假设空间’,我们称之为‘版本空间’。

四、归纳偏好

  归纳偏好是通过学习得到的模型对应了假设空间中的一个假设,归纳和偏好的不同,会导致学习到的模型不同。那么哪一个学习算法,产生的模型更好呢?这时学习算法本身的“偏好”就会起到关键作用。机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或简称“偏好”。

  任何一个有效的机器学习算法都有其归纳偏好,其作用在下图可以更加直观的体现。

图 1.3  存在多条曲线与有限样本训练集一致

  如图所示,这里的每个训练样本是图中的一个点(x,y),我们要学的一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线。显然对于有限个训练样本,存在着很多条曲线可以穿过所有点。我们学习算法必须有某种偏好,才能生产出他认为正确的模型。那么问题来了,有没有一般性的原则来引导算法确立“正确的”偏好呢?“奥卡姆剃刀”就是一种常见且基本的原则,即“若多个假设与观察一致,则选最简单的那个”。但什么才是更简单的呢?

                      

(a)  A优于B                  (b)  B优于A

 

图 2  没有免费的午餐,(黑点训练样本,白点测试样本)

  但是真的是我们想的那样吗?假设样本空间X和假设空间H都是离散的,令P(h|X,F(a))代表算法F(a)基于训练数据X产生假设h的概率,再令f代表我们希望学习的真实目标函数,F(a)的“训练集外误差”,即F(a)在训练集之外的所有样本上的误差为(西瓜书第8页有详细的证明),结果求得总误差和学习算法无关!说人话,也就是无论算法F(a)多聪明,算法F(b)多笨,它们的期望值都是相同的,这就是“没有免费的午餐”定理。简称NFL.NFL定理告诉我们,脱离具体问题,空泛的讨论什么学习算法更好毫无意义,要讨论算法的优劣,必须要针对具体的学习问题,在某些问题上表现好的学习算法,在另外一些问题上往往不尽人意。学习算法的自身归纳偏好与问题相配,往往会起到决定性的作用。

五、发展历程

  二十世纪五十年代到七十年代初,人工智能研究处于“推理期”,五十年代初有A.Samuel著名的“跳棋程序”,五十年代中后期,基于神经网络的“连接主义”学习出现,代表性工作有F.Rosenblatt的感知机,B.Widrow的Adaline等,六十七年代,基于表达的“符号主义”学习技术蓬勃发展,代表性工作有p.Winston的“结构学习系统”、R.S.Michalski等人的“基于逻辑的归纳学习系统”、E.B.Hunt等人的“概念学习系统”等。

  到了二十世纪七十年代中期开始,人工智能研究进入了“知识期”。总体来说八十年代是机器学习成为一个独特的学科领域、各种机器学习技术百花齐放。E.A.Feigenbaum等人在著名《人工智能手册》中把机器学习划分为“机械学习”、“示教学习”、“类比学习”和“归纳学习”。机械学习亦称为死记硬背学习,先把外界信息全部输入记录写来,在需要的时候原封不动的取出来,这实际上并没有起到真正的学习,仅仅在进行信息存储和检索。示教学习和类比学习类似,也就是“从指令中学习”和“通过观察和发现学习”。归纳学习相当于“从样例中学习”,即从训练例中归纳出学习结果,这也是二十世纪被研究最多、应用最广的“广义归纳学习”,它涵盖了“监督学习”、“无监督学习”。

  在二十世纪八十年代,“从样例中学习”的一大主流是符号主义学习,其代表作包括决策树基于逻辑的学习。决策树起源于关于概念形成的树结构研究,决策树学习以信息论为基础,以信息熵的最小值为目标,直接模拟了人类对概念进行判断的流程;基于逻辑的学习的著名代表是归纳逻辑程序设计(Inductive Logic Programming,简称;ILP),它使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成多数据的归纳。ILP具有很强的知识表达能力,可以较容易地表达复杂数据关系,而且领域知识通常可以方便地通过表达式进行描述,因此ILP不仅可利用领域知识辅助学习,还可通过对领域知识进行精化和增强。八十年代中期提出了SDM模型并没有刻意模仿脑生理结构,但后来的神经科学的研究发现,SDM的稀疏编码机制在视觉、听觉、嗅觉功能的脑皮层中广泛存在,从而为理解脑的某些功能提供了一定的启发。

  二十世纪九十年代中期之前,“从样例中学习”的另一主流技术是基于神经网络的连接主义学习,与符号主义学习能产生明确的概念表示表示不同,连接主义学习产生的是“内箱”模型,因此从知识获取的角度来说,连接主义学习技术明显有弱点。连接主义最大的局限是其“试错性”,简单来说,其学习过程设计大量的参数,而参数的设置缺乏理论指导,主要靠手工“调参”。

  二十世纪九十年代中期,“统计学习”闪亮登场。代表性技术是支持向量机(SVM)以及一般的“核方法”,

  有趣的是,二十一世纪初,连接主义学习又卷土重来,掀起了“深度学习”为名的热潮,所谓的和深度学习,狭义地说就是“很多层”的神经网络,在若干测试和竞赛上,尤其是涉及语音、图像等复杂的应用中,但是深度学习技术涉及的模型复杂度非常高,以至于只要下功夫“调参”,把参数调节好,性能往往就好,因此,深度学习虽然缺乏严格的理论基础,但却降低了机器学习应用者的门槛,为机器学习技术走向工程实践带来了便利,深度学习此时的状况和彼时的神经网络何其类似。(西瓜书13页有写)

六、应用现状

  人类进入了“大数据时代”,急需有效的对数据进行分析利用的计算机算法,机器学习顺应了这个时代的需求,尤其是在计算机视觉、自然语言处理等计算机应用领域。“数据分析”就是机器学习的舞台,

生物信息学领域、数据科学领域。大数据时代下的核心技术:机器学习、云计算、众包互联网搜索是通过分析网络上的数据来找到用户所需的信息,建立输入输出之间的联系,内核必然需要机器学习技术。

  进来流行的“迁移学习”恰似“类比学习”在统计学习技术大发展后的升级版;红及一时的“深度学习”在思想上并未显著超越二十世纪八十年代中后期的神经网络学习的研究。

猜你喜欢

转载自blog.csdn.net/qq_34218078/article/details/82883793