机器学习(Machine Learning):基础概念与理解方法

每篇一格言:

苟日新,日日新,又日新

——《礼记·大学》

前言

2019年的热点当然是人工智能了。作为人工智能的重要分支,机器学习方兴未艾。本篇介绍机器学习的基本概念与理解方法。

什么是机器学习

广义概念

按博主的理解,机器学习是指让计算机从数据中获得认知能力。这种认知能力更像是柏拉图提出的哲学命题:
我是谁 ——理解概念
从哪里来 —— 认识过去
到哪里去 —— 预测未来

这种认知能力可以是计算机从数据中产生一种模型,去识别一只猫;或者判断一个人是否会生病。

狭义概念

什么叫做“学习”?

Mitchell(1997)提供了一个简洁的定义:“对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。”

由于这个定义比较拗口,我们不妨换一种方式描述:
计算机初始执行某类task的performance(假设跑分)是100;
计算机通过获取experience,再执行该task的peformance(假设跑分)是100+;
因而可以认为计算机从experience中学习了。

监督学习算法和无监督学习算法

既然机器学习是从经验中获得,因而根据不同的经验,机器学习算法可以分为监督学习算法和无监督学习算法。两者的区别是,有没有提供指导给计算机,告诉它应该怎么做。

监督学习算法

以计算机学习驾驶为例。如果计算机跟随驾驶经验丰富的人类司机学习,每到一个路口,路况以及人类司机的驾驶操作数据被记录下来,随着经验积累,计算机学会了应对不同路口的操作方法。这样的学习方法称为监督学习。 这个例子中,所有路况和司机操作被称为数据集。计算机从数据集中获取经验。每一个路况和司机操作称为样本。

监督学习算法训练含有很多特征的数据集,数据集中的样本都有一个标签或目标。上面的驾驶例子中,每个数据样本都有一个隐含标签,那就是“正确的操作方法”。

无监督学习算法

仍然以计算机学习驾驶为例。如果将所有人类司机(包括新手和肇事司机)的行车记录和操作数据提供给计算机,让计算机寻找有用的讯息。计算机可能会学习到如何更好的驾驶,或者如何驾驶更省油。这样的学习方法称为无监督学习。

无监督学习算法的数据集样本不含有标签或目标,需要计算机从数据中发现有用的讯息。

线性回归

在传统编程时,我们给计算机一个规则,输入参数,计算机输出结果。这个规则可以看作是一个函数f.
现在问题反过来了,我们把一堆参数和结果提供给计算机,计算机能否算出它们之间的规则f呢?(如果存在的话)

顾名思义,线性回归解决回归问题。换句话说,将向量x作为输入,通过计算输出一个线性函数f。

f=(wT)x   ,其中wT是向量w的转置

w是参数向量。

未完待续。

本文为博主原创。别忘了点赞,每天进步一点点~

发布了24 篇原创文章 · 获赞 9 · 访问量 5011

猜你喜欢

转载自blog.csdn.net/GentelmanTsao/article/details/104424351