机器学习基础知识

监督学习

对事物未知表现的预测，一般包括分类问题和回归问题

分类问题

预测类别，比如一个人的身高，体重和三围等数据预测一个人的性别

回归问题

预测连续变量，如根据房屋的面积，地理位置，建筑年代等预测销售价格

无监督学习

倾向于对事物本身特性的分析，常用的技术包括数据降维和聚类问题

数据降维

对事物的特性进行压缩和筛选，留最有区分度的像素组合

聚类

依赖于数据的相似性，把相似的数据样本划分为一个簇

特征

反映数据内在规律的信息

监督学习中的经验

特征、标记(label)
用一个特征向量描述一个数据样本
label的表现形式取决于监督学习的种类
数据标注需耗费大量资源，故数据量少

训练集（training set）

带label的数据集，用来训练学习系统

无监督学习中的经验

无label故无法做预测，但适合对数据结构作分析

原始数据转化为特征向量的过程中会遭遇多种数据类型（需全部转化为具体数值运算）：

类别型特征（categorical）
数值型特征（numerical）
缺失数据（missing value）

训练集

用于训练模型的子集

测试集

用于测试训练后模型的子集

验证集

是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。
f5e749ee14556b36a6e4dfd61160f70

性能（performance）

评价学习模型完成任务质量的指标

分类问题

准确性（accuracy）——预测正确类别的百分比

回归问题：衡量预测值与实际值之间的偏差大小

机器学习基础知识

监督学习

分类问题

回归问题

无监督学习

数据降维

聚类

特征

监督学习中的经验

训练集（training set）

无监督学习中的经验

训练集

测试集

验证集

性能（performance）

分类问题

猜你喜欢