常见的机器学习任务
- 分类
- 学习算法通常会返回一个函数 。模型返回的是指定数字码y所代表的的 类别或者不同类别的 概率分布。
- 输入缺失分类
- 分类任务是学习一个从输入向量映射到输出类别的函数。当一些输入缺失时,学习算法需要学习一组函数,从 个输入变量,学习所有 个不同的函数。但计算机仅需要学习一个描述联合概率分布的函数。
- 回归
- 回归和分类的区别在于输出变量的类型(连续还是离散)。
- 转录
- 这类任务中,机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。例如,根据文本图片(语音音频)返回文字序列。
- 机器翻译
- 这类任务中,输入是一种语言的符号序列,模型将其转化为另一种语言的符号序列。这通常适用于自然语言。
- 结构化输出
- 这类任务中,输出是不同元素之间重要关系的向量(或者是含多个值的其他数据结构)的任务。例如图像的像素级分割,将每一个像素分配到特定类别;例如标注航拍照中的道路位置。这种任务被称为 结构化输出任务是因为输出值之间内部紧密相关。例如图片标题(观察图片,输出描述这幅图的自然语言句子)程序输出的单词必须组合成一个通顺的句子。
- 异常检测
- 这类任务中,计算机程序在一组事件或对象中筛选,并标注不正常或非典型的个体。异常检测任务的一个例子是信用卡欺诈检测:通过对你的购买习惯建模,信用卡公司可以检测到你的卡是否被滥用。
- 缺失值填补
- 这类算法中,给定一个新样本 , 中某些元素 缺失,算法必须填补这些缺失值。
容量:模型的容量,指的是模型拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会出现过拟合现象。
奥卡姆剃刀(简约原则):在同样能够解释已知观测现象的假设中,我们应该选择“最简单”的那一个(容量最低)。
偏差:度量偏离真实函数或参数的误差期望
方差:度量数据上任意特定采样可能导致的估计期望的偏差
无监督学习算法
一个经典的无监督学习任务是找到数据的“最佳”表示。“最佳”可以是不同的表示,但是一般来说,是指该表示在比本事表示的信息更简单或更易访问而受到一些惩罚或限制的情况下,尽可能保存关于 更多的信息。常见的三种表示:
-
-
低维表示
- 较低维度的表示通常会产生比原始数据具有较少或较弱依赖关系的元素。(消除冗余)
-
-
稀疏表示
- 更高维但大多数为 的表示,这使得表示的整体结构倾向于将数据分布在表示空间的坐标轴上。
-
-
独立表示
- 独立表示试图揭开数据分布中变动的来源,使得表示的维度是统计独立的。