数据科学个人笔记：线性回归变种之弹性网络回归+局部散点平滑估计

一、线性回归的变种：局部加权线性回归（本地散点平滑估计LOESS）

1.形式：一种非参数学习算法。局部加权线性回归中，针对每个要预测的样本点，我们都要对整个训练集进行一次拟合，因为我们要根据不同训练样本与预测样本的距离不同来调整每个样本的权重。也就是选取一个W，使得各样本均方误差的加权和达到最小。可使用正规方程来求解，正规方程为W=(X^T*X)^-1 *X^T*A*y。A为对角矩阵，对角线每个值为一个样本的权重，所以维度是样本数*样本数的。

2.确定权重矩阵：通常使用以下公式来计算权重，ai=exp[(xi-预测点的x)^2/(-2k^2)]。其中k为超参数，越大权重的差距就越小，趋于无穷时相当于常规的线性回归。k越小权重差距越大。K越小时拟合能力越强，但越可能过拟合。

二、线性回归的变种：elastic net回归

弹性网络回归同时使用l1和l2正则化项，损失函数为1 / (2 * n_samples) * ||y - Xw||^2_2+ alpha * l1_ratio * ||w||_1+ 0.5 * alpha * (1 - l1_ratio) * ||w||^2_2。所以lambda1和lambda2的指定是通过l1_ratio和alpha来完成。弹性网络是一种使用 L1， L2 范数作为先验正则项训练的线性回归模型。这种组合允许学习到一个只有少量参数是非零稀疏的模型，就像 Lasso 一样，但是它仍然保持一些像 Ridge 的正则性质。我们可利用 l1_ratio 参数控制 L1 和 L2 的凸组合。

弹性网络在很多特征互相联系的情况下是非常有用的。Lasso 很可能只随机考虑这些特征中的一个，而弹性网络更倾向于选择两个。

在实践中，Lasso 和 Ridge 之间权衡的一个优势是它允许在循环过程（Under rotate）中继承 Ridge 的稳定性由于包含l1正则化项，同样要使用坐标下降法来解决此问题。

数据科学个人笔记：线性回归变种之弹性网络回归+局部散点平滑估计

猜你喜欢