机器学习：正规方程(Normal Equation)的推导

在coursera上看了Andrew Ng的《Machine Learning》课程，里面讲到了正规方程(Normal Equation)，现在在此记录一下推导过程。
假设函数(Hypothesis Function)为：

h_{θ} (x) = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + \dots + θ_{n} x_{n}

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$
此处我们可以令 $x_0=1$ .
代价函数(Cost Function):

J (θ) = J (θ_{0}, \dots, θ_{n}) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

$J(\theta)=J(\theta_0,\ldots,\theta_n)=\frac {1} {2m} \sum_{i=1}^{m} {(h_\theta(x^{(i)})-y^{(i)})^2}$
我们想要代价函数的最小解，对代价函数进行求导。因为对于向量我们有

z^{T} z = \sum_{i} z_{i}^{2}

$z^Tz=\sum_{i} z_i^2$ ,所以：

J (θ) = \frac{1}{2 m} (X θ - y)^{T} (X θ - y)

$J(\theta)=\frac {1}{2m}(X\theta-y)^T(X\theta-y)$
因为 $\frac {1} {2m}$ 部分对最终的解没影响，为了便于书写和计算，我们可以先将这部分舍去。对方程的转置进行化简：

J (θ) = (θ^{T} X^{T} - y^{T}) (X θ - y)

$J(\theta)=(\theta^TX^T-y^T)(X\theta-y)$

J (θ) = θ^{T} X^{T} X θ - (X θ)^{T} y - y^{T} X θ + y^{T} y

$J(\theta)=\theta^TX^TX\theta-(X\theta)^Ty-y^TX\theta+y^Ty$
因为 $x\theta和y$ 都是矢量，所以这两者相乘先后顺序没有关系，所以可以化简成：

J (θ) = θ^{T} X^{T} X θ - 2 (X θ)^{T} y + y^{T} y

$J(\theta)=\theta^TX^TX\theta-2(X\theta)^Ty+y^Ty$
接着方程

J (θ) 对 θ

$J(\theta)对\theta$ 进行求导:

\frac{\partial}{\partial θ} J (θ) = 2 X^{T} X θ - 2 X^{T} y = 0

$\frac {\partial}{\partial\theta}J(\theta)=2X^TX\theta-2X^Ty=0$ 1
$\frac {\partial}{\partial\theta}J(\theta)=0时，得到最合适\theta$

X^{T} X θ = X^{T} y

$X^TX\theta=X^Ty$
两边同时乘以 $X^TX$ 的逆矩阵，得：

θ = (X^{T} X)^{- 1} X^{T} y

$\theta=(X^TX)^{-1}X^Ty$
此即为正规方程。当

θ = (X^{T} X)^{- 1} X^{T} y

$\theta=(X^TX)^{-1}X^Ty$ 时，代价方程有最优解。