Normal Equation公式:
θ=(XTX)−1XTY
推导过程:
起始:
X⋅θ=Y
第一步:左乘X T
XTX⋅θ=XTY
第二步:左乘(X TX) -1
(XTX)−1XTX⋅θ=(XTX)−1XTY
其中:
(XTX)−1(XTX)=I
所以:
θ=(XTX)−1XTY
Gradient Descent方法:
- 需要选择学习率 α
- 需要多次迭代
- 特征数量很大时,仍然效率很高
Normal Equation方法:
- 不需要选择学习率 α
- 不需要迭代
- 不适合特征数量很大的情况,因为需要算矩阵乘法