1.1 基本术语

一条记录是关于一个事件或者对象的描述，称为一个示例（instance）或样本（sample）。

反映事件或对象在某方面的表现或性质的事项，称为属性（attribute）或特征（feature）。

属性的取值称为属性值（attribute value）。

属性张成的空间称为属性空间（attribute space）、样本空间（sample space）或输入空间。

空间中的每个点对应一个坐标向量，一个示例也称为一个特征向量（feature vector）。

从数据中学得模型的过程称为学习（learning）或训练（training）。

学得模型对应了关于数据的某种潜在规律，因此称为假设（hypothesis），潜在规律则称为真相或真实（ground-truth）。

关于示例结果的信息称为标记（lable），拥有了标记信息的示例，则称为样例（example）。

所有标记的集合称为标记空间（lable space）或输出空间。

若预测的是离散值，此类学习任务称为分类（classfication）。若预测的是连续值，此类学习任务称为回归（regression）。

学得模型后，使用其进行预测的过程称为测试（testing）。

将训练集中的样本分为若干组的过程，称为聚类（clustering）,其中每一个组称为一个簇（cluster）。

根据训练数据是否拥有标记信息，学习任务可大致分为监督学习（supervised learning）和无监督学习（unsupervised learning）。

学得模型适用于新样本的能力，称为泛化（generalization）能力。

1.2 假设空间

归纳（induction）是从特殊到一般的泛化过程，演绎（deduction）是从一般到特殊的特化（specialization）过程。

归纳学习（induction learning）有狭义和广义之分，广义的归纳学习大体相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念（concept），因此又称为概念学习或概念形成。

学习过程可以看做一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配（fit）的假设。

可能有多个假设与训练集一致，即存在一个与训练集一致的假设集合，称之为版本空间（version space）。

机器学习算法在学习过程中对某种类型假设的偏好，称为 归纳偏好（inductive bias）,或者简称为偏好。

奥卡姆剃刀（Occam's razor）原则：若有多个假设与观察一致，则选择最简单的那个。