NLP(18): Lasso and coordinate descent

1、参数搜索策略

grid search

在这里插入图片描述

  • 随机搜索:random search:随即在区间选择
  • 遗传算法: genetic algorithm:尽量往好的方向搜索。
  • 贝叶斯优化: Bayesian optimization

深度学习得超参数是很复杂的

2、正则的高级应用

在这里插入图片描述

Time-Aware Recommendation

矩阵分解
对矩阵里空的区域做预测
给定user-rating matrix分解成user matrix和item matrix

在user和item见加入了一个k维的隐变量,其中每个维度代表着用户的特征向量。
在这里插入图片描述
在考虑时间维度上,要加上两个正则项,限制用户特征向量和物品特征向量在短时间间隔内不会相差过多。

3、总结

  • 好的模型拥有很高的泛化能力
  • 越复杂的模型越容易过拟合
  • 添加正则项是防止过拟合的一种手段
  • L1正则会带来系数特性
  • 选择超参数时使用交叉验证
  • 参数搜索过程最耗费资源

4、MLE vs MAP

  • 最大似然估计的估计只来自于可观测的样本
  • 最大后验估计:依赖于观测的样本和先验概率

在这里插入图片描述
在这里插入图片描述

From Gaussian Prior to L2 Regularization

在这里插入图片描述

From Laplace prior to L1 Regularization

在这里插入图片描述

  • 当数据很多,MAP和MLE相同

在这里插入图片描述

5、Lasso

Lasso: L1-norm:产生sparsity

  • 如果维度太高,计算量也变得很高
  • 在稀疏性条件下,计算量只依赖非0项的个数
  • 提高解释性

6、特征选择技术

在这里插入图片描述
option 2:Forward stepwise


在这里插入图片描述

  • Ridge regression:使用 L2-norm的线性回归,可以使w变得很小
  • Lasso regression:使用 L1-norm的线性回归,可以让不重要的w变成0

Sub-gradient descent

在这里插入图片描述

Coordinate Descent

每次考虑的寻求的最好的解只考虑一个维度
通过循环每次只对其中一个w进行梯度下降
在这里插入图片描述

  • 如何选择下一个coordinate:
    1、依次选择
    2、随机选择
  • 不需要设定step-size
  • 对于lasso,objective, 它会收敛

其他 lasso solvers

  • Least angle regression: LARS
  • Coordinate descent
  • Parallel CD

猜你喜欢

转载自blog.csdn.net/weixin_51182518/article/details/113795164