1.1 基本术语
一条记录是关于一个事件或者对象的描述,称为一个示例(instance)或样本(sample)。
反映事件或对象在某方面的表现或性质的事项,称为属性(attribute)或特征(feature)。
属性的取值称为属性值(attribute value)。
属性张成的空间称为属性空间(attribute space)、样本空间(sample space)或输入空间。
空间中的每个点对应一个坐标向量,一个示例也称为一个特征向量(feature vector)。
从数据中学得模型的过程称为学习(learning)或训练(training)。
学得模型对应了关于数据的某种潜在规律,因此称为假设(hypothesis),潜在规律则称为真相或真实(ground-truth)。
关于示例结果的信息称为标记(lable),拥有了标记信息的示例,则称为样例(example)。
所有标记的集合称为标记空间(lable space)或输出空间。
若预测的是离散值,此类学习任务称为分类(classfication)。若预测的是连续值,此类学习任务称为回归(regression)。
学得模型后,使用其进行预测的过程称为测试(testing)。
将训练集中的样本分为若干组的过程,称为聚类(clustering),其中每一个组称为一个簇(cluster)。
根据训练数据是否拥有标记信息,学习任务可大致分为监督学习(supervised learning)和无监督学习(unsupervised learning)。
学得模型适用于新样本的能力,称为泛化(generalization)能力。
1.2 假设空间
归纳(induction)是从特殊到一般的泛化过程,演绎(deduction)是从一般到特殊的特化(specialization)过程。
归纳学习(induction learning)有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此又称为概念学习或概念形成。
学习过程可以看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配(fit)的假设。
可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,称之为版本空间(version space)。
1.3 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为 归纳偏好(inductive bias),或者简称为偏好。
奥卡姆剃刀(Occam's razor)原则:若有多个假设与观察一致,则选择最简单的那个。