目前是自学机器学习，一些基本的术语从西瓜书中摘录

1、基本术语

数据集(data set) ：数据的集合
数据集中的一个记录或描述称为“示例”、“样本”（instance）
属性或特征：反映事件或对象某方面的特征或表现（feature）
属性张成的空间称为“属性空间”（attribute space）、“样本空间”（sample space）或“输入空间”
一个示例为样本空间中的一个点，因此一个示例也称为“特征向量” （feature vector）
维度：一般地，令 $\{\bm{x_1,x_2,...,x_m }\}$ 表示包含 $m$ 个示例的数据集，每个示例由 $d$ 个属性描述，则每个示例 $\bm{x_i} = (x_{i1};x_{i2};...;x_{id})$ 是 $d$ 维样本空间 $\mathcal{X}$ 中的一个向量， $\bm{x_i} \in \mathcal{X}$ ,其中 $x_{ij}$ 是 $\bm{x_i}$ 在第 $j$ 个属性上的取值， $d$ 称为样本 $\bm{x_i}$ 的 “维度” （dimensionality）
从数据中获得模型的过程称为“学习（learning）”或“训练（training）”，这个过程由某个学习算法执行完成
训练过程中的使用的数据称为“训练数据”，其中的每个样本称为“训练样本”，训练样本的集合称为“训练集”（training set）
学得模型对应了关于数据的某种潜在的规律，因此称为“假设”（hypothesis），所有假设组成的空间称为“假设空间”；潜在规律自身则称为“真相”或“真实（ground-truth），”学习过程就是为了找出或逼近真相
关于示例结果的信息称为“标记”（label）
拥有了标记信息的示例称为“样例”（example）一般地，用 $(\bm{x_i},y_i)$ 表示第 $i$ 个样例，其中 $y_i \in \mathcal{Y}$ 是示例 $\bm{x_i}$ 的标记， $\mathcal{Y}$ 是所有标记的集合，称为“标记空间”（label space）或“输出空间”
若将标记看作对象本身的一部分，则“样例”有时也称为“样本”
若欲预测值是离散值，此类学习任务称为“分类”（classification）；若欲预测的是连续值，此类学习任务称为“回归”（regression）
对只涉及两个类别的“二分类”（binary classification）任务，通常称其中一个类为“正类”（positive class），另一个类为“反类”（negative class）或“负类”；涉及多个类别时，则称为“多分类”（multi-class classification）任务
一般地，预测任务是希望通过对训练集 $\{(\bm{x}_1,y_1),(\bm{x}_2,y_2),...,(\bm{x}_m,y_m)\}$ 进行学习，建立一个从输入空间 $\mathcal{X}$ 到输出空间 $\mathcal{Y}$ 的映射 $\mathcal{X} \mapsto \mathcal{Y}$ . 对二分类任务，通常令 $\mathcal{Y}=\{-1,+1\}$ 或 ${0,1\}$ ; 对多分类任务， $\vert \mathcal{Y} \vert >2$ ; 对回归任务， $\mathcal{Y}=\mathbb{R},\mathbb{R}为实数集$
学得模型后，使用其进行预测的过程称为“测试”（testing），被预测的样本称为“测试样本”（testing sample）
将训练集中的样本分成若干个组，每组称为一个“簇”（cluster）
根据训练数据是否拥有标记信息，学习任务可大致分为两大类：“监督学习（supervised learning）”和“无监督学习”（unsupervised learning）,分类和回归是前者的代表，而聚类是后者的代表
学得模型适用于新样本的能力，称为“泛化”（generalization）能力
假设样本空间中的每个样本服从一个未知“分布”（distribution） $\mathcal{D}$ ，我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”（independent and identically distributed,简称 $i . i . d$ ）.训练样本越多，得到关于 $\mathcal{D}$ 的信息就越多，就越可能通过学习获得具有强泛化能力的模型

机器学习---基本术语

1、基本术语

猜你喜欢