机器学习的基本概念:
1、概念学习:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数
example:学习享受运动这一概念
影响因素:
- 天气:晴、雨、阴、雪
- 温度:冷、暖
- 风力:强、弱
- 水温:冷、暖
享受运动:是、否
概念定义在实例集合之上,这个集合表示为X(在上例中是多天因素与享受运动的数据集)。
x:每一个实例(每一天) X:样例,所有实例的集合(100天)
待学习的概念或目标函数称为目标概念(target concept),记做c(上例中是否享受运动)
2、训练集(training set/data)/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集
测试集:(testing set/data)/测试样例(testing examples):用来专门进行测试已经学习好的模型或者算法的数据集
特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例(上例中的影响因素组成的向量)
标记(lable):实例类别的标记,c(x)
正例(positive example)(上例中享受运动的实例)
反例(negative example)(上例中不享受运动的实例)
3、机器学习中可以分为两类最基本的问题
分类(classification):目标标记为类别性数据(category)
回归(regression):目标标记为连续性数值(continuous numeric value)
4、有监督学习(supervised learning):训练集有类别标记(class lable)
无监督学习(unsupervised learning):无类别标记
半监督学习(semi-supervised learning):有类别标记的训练集+无类别标记的训练集
5、机器学习步骤框架:
- 把数据拆分为训练集和测试集
- 用训练集和训练集的特征向量来训练算法
- 用学习来的算法运用在测试集上来评估算法(可能要涉及到调整参数(parameter tuning),用验证集(validation set))
6、机器学习中分类和预测算法的评估标准:
- 准确率
- 速度(算法复杂度)
- 强壮性(数据中有噪音或者部分数值缺失,算法表现)
- 可规模性(当数据变得很大时,会不会出现问题)
- 可解释性(能否容易解释算法分类与我们直觉相符)