线性回归的补充与变量归一化

紧接上一篇博客，多变量梯度下降法的表达式形式与单变量一致，只是变量的扩充以及每次迭代需要对每个变量进行操作（同样是所有变量一次性更新）。假设函数、代价函数和梯度下降的表达式分别如下：

h θ (x) = θ T x

$h_\theta(x)=\theta^Tx$

J (θ) = 1 2 m \sum i = 0 m (h θ (x i) - y i) 2

$J(\theta)=\frac{1}{2m}\sum_{i=0}^{m}(h_\theta(x_i)-y_i)^2$

θ j : = θ j - α \partial \partial θ j J (θ) for all j

$\begin{align}\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta)&&\text{for all }j\end{align}$
对于多变量，往往每个特征变量的取值范围差异很大，在利用梯度下降法进行迭代运算求

J(θ) $J(\theta)$ 的最小值时，迭代路径受数值大的变量影响较大，而数值小的变量可能会在最优值附近反复振荡，造成迭代路径的曲折，收敛缓慢。因此为了更快收敛，一般把各变量归一化成取值范围大概一致（ feature scaling）。一般取

−1≤xi≤1 $-1\leq x_i \leq 1$ 或者

−0.5≤xi≤0.5 $-0.5 \leq x_i \leq 0.5$ ，（不是严格规定）。对于一个一般变量，通常取

x i : = x i - μ i s i

$x_i:=\frac{x_i-\mu_i}{s_i}$ 这里

μi $\mu_i$ 是

xi $x_i$ 的 样本平均值，

si $s_i$ 是取值范围（max - min），或者

si $s_i$ 取为标准差。

这里写图片描述

对于回归问题，显然假设函数 $h_\theta(x)$ 并不是与每个特征变量均成线性关系，可能会出现如 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2^2$ 的形式，这称为多项式回归（Polynomial Regression）。

但是，可以通过适当变形把其转变为线性回归。在此例子中，令 $x_2=x_2^2$ ，则 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2$ 。此外，可令 $x_3=x_1x_2$ ， $x_4=\sqrt{x_1}$ 等各种不同方式对变量变形，使其成为线性回归问题。运用变形后，变量范围的归一化就变得尤为重要。

另一种解线性回归问题的方法是标准方程法（Normal Equation），运用该方法，可以不需要迭代而直接求出 $\theta$ 。该方程如下：

θ = (X T X) X - 1 y

$\theta=(X^TX)X^{-1}y$
这里

θ=⎡⎣⎢⎢⎢θ0θ1θ2...⎤⎦⎥⎥⎥ $\theta =\left[\begin{matrix}\theta_0\\\theta_1\\\theta_2\\...\end{matrix}\right]$ ，

y=⎡⎣⎢⎢⎢⎢y0y1y2...⎤⎦⎥⎥⎥⎥ $y=\left[\begin{matrix}y_0\\y_1\\y_2\\...\end{matrix}\right]$ ，

X=⎡⎣⎢⎢⎢⎢⎢x(1)0x(2)0x(3)0...x(1)1x(2)1x(3)1...x(1)2x(2)2x(3)2...............⎤⎦⎥⎥⎥⎥⎥ $X=\left[\begin{matrix}x_0^{(1)}&x_1^{(1)}&x_2^{(1)}&...\\x_0^{(2)}&x_1^{(2)}&x_2^{(2)}&...\\x_0^{(3)}&x_1^{(3)}&x_2^{(3)}&...\\...&...&...&...\end{matrix}\right]$
例子如下：
这里写图片描述

这个结论来源于线性代数中的投影，具体推导参考http://open.163.com/movie/2010/11/J/U/M6V0BQC4M_M6V2AJLJU.html

梯度下降法和标准方程法的比较：

Gradient Descent	Normal Equation
需要选择合适的参数 $\alpha$	不需要选择参数
需要多次迭代	不需要迭代
算法复杂度 $O(kn^2)$	$O(n^3)$ ，因要计算 $X^TX$ 的逆矩阵
当样本数n很大时依然高效	样本数n很大时计算慢

如果 $X^TX$ 不可逆，有以下两方面原因：
1、存在多余的特征变量，如其中两个特征变量存在线性关系，如 $x_2=2x_1$ ；
2、相比较样本数据，特征变量太多，即 $m<n$ ，这里 $m$ 是样本个数， $n$ 是特征变量个数

在Octave/Matlab中，用pinv()代替inv()实现矩阵取逆，即使矩阵不可逆时也可以得到正确的结果。
即标准方程的代码实现为：

theta = pinv(X'*X)*X'*y;

线性回归的补充与变量归一化

猜你喜欢