Stanford机器学习-Linear Regressioon with Multiple variables（1）

一、Multiple features

前面的课程中学习到的线性回归算法只含有一个或是两个变量，如房屋价格的例子：
这里写图片描述

对于这个的拟合假设这里只有两个参数 θ0和 θ1，但在实际生活中影响房屋价格的因素往往还有很多，比如：
这里写图片描述
卧室的数量，楼层数等；我们希望可以用一个矩阵来存储相关的数据，具体的表示如图片中所写的那样，这样我们就可以使用向量来计算。

在这样的情况下，我们所需的假设参数就会有很多：
这里写图片描述

如上这里有5个参数，当有n个参数时：
这里写图片描述
我们就可以使用矩阵相乘的形式来代替h( θ)的多项式，这里为了计算方便，我们设x0=1，参数 θi表示为n+1维的向量 θ，未知数x组成向量X，这样h( θ)的表示就等于 θ的转置乘以X，处理这个问题，就涉及到了多元线性回归。

二、Gradient descent for multiple variables

根据问题我们可以得到如下的假设以及相关的处理过程：
这里写图片描述
为了简化计算我们使用变化后的表达式。那么使用梯度下降的方法过程如下：

我们通过不断的更新每个参数，来计算使得代价最小的参数组合。

三、Gradient descent in practice

一般情况，我们为了提高算法的效率，减少迭代的次数，通常会使用一些方法，在梯度下降中，特征缩放就是一个很常用策略：
这里写图片描述

之所以使用特征缩放，是因为我们一般都希望特征参数的值可以在一个相似的范围内，比如x1表示房屋的面积，取值范围是0-2000，x2表示卧室的数量，取值范围是1-5。当我们希望参数的取值在0-1之间时，我们就需要通过一些计算来缩小参数的值，比如除以一个相对的数值等。
这里写图片描述
当然参数范围的选取不是绝对的，只要不是取得太大或是太小均可以，根据算法的要求来自行选取。

这里写图片描述
这里涉及到一个均值归一化的问题。数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种常用的归一化方法：

一、min-max标准化（Min-Max Normalization）
也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。转换函数如下：这里写图片描述

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

二、Z-score标准化方法
这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：这里写图片描述

其中这里写图片描述为所有样本数据的均值，为所有样本数据的标准差。

参考自：数值标准化

在梯度下降的计算如下：
这里写图片描述
公式中涉及到一个参数：learning rate
它的合适选取同样会影响梯度下降的速度和工作的正确性。合适的学习率会使得代价函数值随着迭代次数的增加而逐步的减少，到一定的迭代次数后可以达到我们设定的精度值，迭代次数的设置通常可以按一定的比例。
这里写图片描述
如果learning rate的选取不当就会出现下面的结果：

当太小时会导致下降的速度太慢，严重时可能会导致无法收敛或是存在多个局部的最优值，选择的太大会导致代价函数值变化太大，也可能无法收敛。
那么learning rate通常该如何选择呢？
这里写图片描述
通常我们可以选择…，0.001，0.01，0.1，1…或是它的倍数，通过一定次数的实验决定最好的选取。

四、Features and polynomial regression

这里写图片描述
如在房价预测问题中，我们使用frontage表示房子的临街宽度，用depth表示房子的纵深，而他们的乘积就是房子的面积area，那么关于三个参数的方程就可以用含有两个参数的表达式代替。

在如图的数据集中，如果我们还是使用二次多项式来拟合数据的话，拟合曲线就会出现下降的情况，显然不符合实际，这时我们就需要使用更高幂次的多项式，例如用x2的平方代替x2，用x3的立方代替x3，拟合曲线就会如图中绿色线所示，显然更符合真实情况。
通常我们需要先观察数据集，然后再决定采用什么样的模型，从而将其转化为线性回归模型。此外我们还可以做如下处理：
这里写图片描述