机器学习---基本术语

目前是自学机器学习,一些基本的术语从西瓜书中摘录


1、基本术语

  • 数据集(data set) :数据的集合
  • 数据集中的一个记录或描述称为“示例”、“样本”(instance)
  • 属性特征:反映事件或对象某方面的特征或表现 (feature)
  • 属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间
  • 一个示例为样本空间中的一个点,因此一个示例也称为“特征向量” (feature vector)
  • 维度:一般地,令 D = { x 1 , x 2 , . . . , x m } D = \{\bm{x_1,x_2,...,x_m }\} D={ x1,x2,...,xm} 表示包含 m m m 个示例的数据集,每个示例由 d d d 个属性描述,则每个示例 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) \bm{x_i} = (x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid) d d d 维样本空间 X \mathcal{X} X 中的一个向量, x i ∈ X \bm{x_i} \in \mathcal{X} xiX ,其中 x i j x_{ij} xij x i \bm{x_i} xi 在第 j j j 个属性上的取值, d d d 称为样本 x i \bm{x_i} xi 的 “维度” (dimensionality)
  • 从数据中获得模型的过程称为“学习(learning)”或“训练(training)”,这个过程由某个学习算法执行完成
  • 训练过程中的使用的数据称为“训练数据”,其中的每个样本称为“训练样本”,训练样本的集合称为“训练集”(training set)
  • 学得模型对应了关于数据的某种潜在的规律,因此称为“假设”(hypothesis),所有假设组成的空间称为“假设空间”;潜在规律自身则称为“真相”或“真实(ground-truth),”学习过程就是为了找出或逼近真相
  • 关于示例结果的信息称为“标记”(label)
  • 拥有了标记信息的示例称为“样例”(example)一般地,用 ( x i , y i ) (\bm{x_i},y_i) (xi,yi) 表示第 i i i 个样例,其中 y i ∈ Y y_i \in \mathcal{Y} yiY 是示例 x i \bm{x_i} xi 的标记, Y \mathcal{Y} Y 是所有标记的集合,称为“标记空间”(label space)或“输出空间
  • 若将标记看作对象本身的一部分,则“样例”有时也称为“样本”
  • 若欲预测值是离散值,此类学习任务称为“分类”(classification);若欲预测的是连续值,此类学习任务称为“回归”(regression)
  • 对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class)或“负类”;涉及多个类别时,则称为“多分类”(multi-class classification)任务
  • 一般地,预测任务是希望通过对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(\bm{x}_1,y_1),(\bm{x}_2,y_2),...,(\bm{x}_m,y_m)\} { (x1,y1),(x2,y2),...,(xm,ym)} 进行学习,建立一个从输入空间 X \mathcal{X} X 到输出空间 Y \mathcal{Y} Y 的映射 f : X ↦ Y f: \mathcal{X} \mapsto \mathcal{Y} f:XY. 对二分类任务,通常令 Y = { − 1 , + 1 } \mathcal{Y}=\{-1,+1\} Y={ 1,+1} { 0 , 1 } \{0,1\} { 0,1} ; 对多分类任务, ∣ Y ∣ > 2 \vert \mathcal{Y} \vert >2 Y>2; 对回归任务, Y = R , R 为 实 数 集 \mathcal{Y}=\mathbb{R},\mathbb{R}为实数集 Y=R,R
  • 学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)
  • 将训练集中的样本分成若干个组,每组称为一个“”(cluster)
  • 根据训练数据是否拥有标记信息,学习任务可大致分为两大类:“监督学习(supervised learning)”和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类是后者的代表
  • 学得模型适用于新样本的能力,称为“泛化”(generalization)能力
  • 假设样本空间中的每个样本服从一个未知“分布”(distribution) D \mathcal{D} D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称 i . i . d i.i.d i.i.d).训练样本越多,得到关于 D \mathcal{D} D 的信息就越多,就越可能通过学习获得具有强泛化能力的模型

猜你喜欢

转载自blog.csdn.net/Naruto_8/article/details/120242454