监督学习
对事物未知表现的预测,一般包括分类问题和回归问题
分类问题
预测类别,比如一个人的身高,体重和三围等数据预测一个人的性别
回归问题
预测连续变量,如根据房屋的面积,地理位置,建筑年代等预测销售价格
无监督学习
倾向于对事物本身特性的分析,常用的技术包括数据降维和聚类问题
数据降维
对事物的特性进行压缩和筛选,留最有区分度的像素组合
聚类
依赖于数据的相似性,把相似的数据样本划分为一个簇
特征
反映数据内在规律的信息
监督学习中的经验
- 特征、标记(label)
- 用一个特征向量描述一个数据样本
- label的表现形式取决于监督学习的种类
- 数据标注需耗费大量资源,故数据量少
训练集(training set)
带label的数据集,用来训练学习系统
无监督学习中的经验
无label故无法做预测,但适合对数据结构作分析
原始数据转化为特征向量的过程中会遭遇多种数据类型(需全部转化为具体数值运算):
- 类别型特征(categorical)
- 数值型特征(numerical)
- 缺失数据(missing value)
训练集
用于训练模型的子集
测试集
用于测试训练后模型的子集
验证集
是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。
性能(performance)
评价学习模型完成任务质量的指标
分类问题
准确性(accuracy)——预测正确类别的百分比
回归问题:衡量预测值与实际值之间的偏差大小
测试集(testing set):与TS具备相同特征,没有被用于训练
how:用测试集测试预测的准确率(用具备相同特征的数据,模型在测试集上的预测结果与正确结果进行比对)